# Bienvenidos a la Clase 5 de SGBDA

En esta clase vamos a utilizar la librería pandas para creación y manejo de datasets, además de trabajar con las diferentes estructuras de datos, manejar y conocer las diferentes opciones en cada tipo de estructura, sus coincidencias y diferencias.

### Pandas:
pandas es un paquete de Python que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para que el trabajo con datos "relacionales" o "etiquetados" sea fácil e intuitivo. Su objetivo es ser el bloque de construcción fundamental de alto nivel para realizar análisis de datos prácticos del mundo real en Python. Además, tiene el objetivo más amplio de convertirse en la herramienta de análisis / manipulación de datos de código abierto más potente y flexible disponible en cualquier idioma.

pandas es adecuado para muchos tipos diferentes de datos:
* Datos tabulares con columnas de tipos heterogéneos, como en una tabla SQL o una hoja de cálculo de Excel
* Datos de series de tiempo ordenados y desordenados (no necesariamente de frecuencia fija).
* Datos matriciales arbitrarios (homogéneos o heterogéneos) con etiquetas de fila y columna


Cualquier otra forma de conjuntos de datos observacionales / estadísticos. Los datos en realidad no necesitan etiquetarse en absoluto para ser colocados en una estructura de datos de pandas.


Las dos estructuras de datos principales de pandas, Series (unidimensional) y DataFrame (bidimensional), manejan la gran mayoría de los casos de uso típicos en finanzas, estadísticas, ciencias sociales y muchas áreas de la ingeniería. Para los usuarios de R, DataFrame proporciona todo lo que proporciona el data.frame de R y mucho más. pandas está construido sobre NumPy y está destinado a integrarse bien dentro de un entorno informático científico con muchas otras bibliotecas de terceros.

Estas son solo algunas de las cosas que los pandas hacen bien:

* Fácil manejo de los __datos faltantes__ (representados como NaN) en punto flotante, así como datos de punto no flotante
* Mutabilidad de tamaño: las columnas se pueden __insertar y eliminar__ de DataFrame y objetos de mayor dimensión
* __Alineación de datos__ automática y explícita: los objetos se pueden alinear explícitamente a un conjunto de etiquetas, o el usuario puede simplemente ignorar las etiquetas y dejar que Series, DataFrame, etc.alineen automáticamente los datos para usted en los cálculos.
* Potente y flexible __agrupar por (group by)__ para realizar operaciones de división, aplicación y combinación en conjuntos de datos, tanto para agregar como para transformar datos
* __Facilita la conversión__ de datos irregulares e indexados de manera diferente en otras estructuras de datos Python y NumPy en objetos DataFrame
* Corte inteligente basado en __etiquetas, indexación sofisticada y subconjunto__ de grandes conjuntos de datos
* Combinación y unión de conjuntos de datos intuitivos
* _Merging y joining_ flexibles de conjuntos de datos
* __Etiquetado jerárquico__ de ejes
* Herramientas de E/S robustas para cargar datos de __archivos planos__ (CSV y delimitados), archivos de Excel, bases de datos y guardar/cargar datos desde el formato HDF5 ultrarrápido
* Funcionalidad específica de __series de tiempo__: generación de rango de fechas y conversión de frecuencia, estadísticas de ventana móvil, cambio de fecha y retraso.

Muchos de estos principios están aquí para abordar las deficiencias que se experimentan con frecuencia al utilizar otros lenguajes/entornos de investigación científica. Para los científicos de datos, el trabajo con datos generalmente se divide en múltiples etapas: recopilar y limpiar datos, analizarlos/modelarlos y luego organizar los resultados del análisis en una forma adecuada para trazarlos o mostrarlos en forma de tabla.

__pandas__ es la herramienta ideal para todas estas tareas.

### Data structures

1) Dimensiones: 1
* __Nombres__: Series
* __Descripción__: Matriz de tipificación homogénea etiquetada 1D

2) Dimensiones: 2
* __Nombres__: DataFrame
* __Descripción__: Estructura tabular de tamaño mutable, etiquetada en 2D general con columna potencialmente heterogénea

 ### Qué tipo de datos manejan pandas?
 Quiero empezar a usar pandas:

In [None]:
import pandas as pd

Para cargar el paquete __pandas__ y comenzar a trabajar con él, importe el paquete. El alias acordado por la comunidad para pandas es __pd__, por lo que cargar pandas como __pd__ se supone una práctica estándar para toda la documentación de pandas.

### Pepresentación de la tabla de datos con pandas:
<img src="https://pandas.pydata.org/pandas-docs/version/1.0.3/_images/01_table_dataframe1.svg" width="30%" height="30%">

Quiero almacenar datos de pasajeros del _Titanic_. Para varios pasajeros, conozco los datos de nombre (caracteres), edad (números enteros) y sexo (hombre/mujer).

In [None]:
diccionario_demo={
"Name": ["Braund, Mr. Owen Harris",
"Allen, Mr. William Henry",
"Bonnell, Miss. Elizabeth"],
"Age": [22, 35, 58],
"Sex": ["male", "male", "female"]}
diccionario_demo

In [None]:
type(diccionario_demo)

In [None]:
df = pd.DataFrame(diccionario_demo)
df

In [None]:
df.to_excel('diccionario_demo.xlsx', sheet_name='demo', index=False)

In [None]:
df.to_sql("clientes", con=conn_pgadmin, if_exists="fail")

In [None]:
type(df)

Para almacenar datos manualmente en una tabla, cree un __DataFrame__. Cuando se usa un diccionario de listas de Python, las claves del __diccionario__ se usarán como encabezados de columna y los valores en cada lista como columnas del DataFrame.

Un __DataFrame__ es una estructura de datos bidimensional que puede almacenar datos de diferentes tipos (incluidos caracteres, números enteros, valores de punto flotante, datos categóricos y más) en columnas. Es similar a una hoja de cálculo, una tabla SQL o el data.frame en R.

* La tabla tiene 3 columnas, cada una de ellas con una etiqueta de columna. Las etiquetas de las columnas son respectivamente Nombre, Edad y Sexo.
* La columna Nombre consta de datos textuales con cada valor una cadena, la columna Edad son números y la columna Sexo son datos textuales.

En el software de hoja de cálculo, la representación de la tabla de nuestros datos sería muy similar:


<img src="https://pandas.pydata.org/docs/_images/01_table_spreadsheet.png" width="50%" height="50%">

### Cada columna de un DataFrame es un pandas Series
<img src="https://pandas.pydata.org/docs/_images/01_table_series.svg" width="20%" height="20%">

Si solo me interesa trabajar con los datos de la columna Edad:

In [None]:
df["Age"]

In [None]:
type(df["Age"])

In [None]:
df["Name"]

In [None]:
type(df["Name"])

In [None]:
lista=["Name", "Age"]

In [None]:
df[lista]

In [None]:
type(df[lista])

Al seleccionar una sola columna de un DataFrame de pandas, el resultado es un __pandas Series__. Para seleccionar la columna, use la etiqueta de la columna entre corchetes `[]`.

<div class="alert alert-block alert-info">
<b>Nota:</b> _La selección de una sola columna es muy similar a la selección de valores de diccionario basados en la clave._
</div>

También puede crear un __pandas Series__ desde cero:

In [None]:
ages = pd.Series([22, 35, 58], name="Age")
ages

### Haz algo con un DataFrame o Series:
Quiero saber la edad máxima de los pasajeros. Podemos hacer esto en el DataFrame seleccionando la columna Edad y aplicando `max()`:

In [None]:
df["Age"].max()

o en la Series:

In [None]:
type(ages)

In [None]:
ages.max()

Como ilustra el método `max()`, puede hacer cosas con un DataFrame o Series. pandas proporciona muchas funcionalidades, cada una de ellas un método que puede aplicar a un DataFrame o Series. Como los métodos son funciones, no olvide utilizar paréntesis `()`.

Estoy interesado en algunas estadísticas básicas de los datos numéricos de mi tabla de datos:

In [None]:
df

In [None]:
df["Age2"]=df["Age"]*2
df

In [None]:
df.describe()

In [None]:
hola="esto es una cadena"
hola[5:7]

In [None]:
df[1:2]

In [None]:
df.describe()[3:4].T

In [None]:
df.describe()[3:6].T

In [None]:
type(df.describe())

El método `describe()` proporciona una descripción general rápida de los datos numéricos en un DataFrame. Como las columnas Nombre y Sexo son datos textuales, el método `describe()` no los tiene en cuenta por defecto.

Muchas operaciones de pandas devuelven un DataFrame o una Series. El método `describe()` es un ejemplo de una operación de pandas que devuelve un pandas Series.

Verifique más opciones de `describe()` en la sección de la guía del usuario sobre agregaciones con describe(): https://pandas.pydata.org/docs/user_guide/basics.html#basics-describe


<div class="alert alert-block alert-info">
<b>Recuerda:</b>
    <ul>
        <li>Importar el paquete, también conocido como importar pandas como pd</li>
        <li>Una tabla de datos se almacena como un DataFrame de pandas</li>
        <li>Cada columna de un DataFrame es un pandas Series</li>
        <li>Puede hacer cosas aplicando un método a un DataFrame o Series</li>
    </ul>
</div>

### Cómo leo y escribo datos tabulares?
<img src="https://pandas.pydata.org/pandas-docs/version/1.0.3/_images/02_io_readwrite1.svg" width="70%" height="70%">

Vamos a analizar los datos de los pasajeros del Titanic disponibles como archivo CSV. Para eso subir el archivo __titanic.csv__ disponibilizado en esta clase en la misma ruta que este jupyter notebook:

In [None]:
titanic = pd.read_csv("titanic.csv")

__pandas__ proporciona la función `read_csv()` para leer datos almacenados como un archivo csv en un DataFrame de pandas. pandas admite muchos formatos de archivo diferentes o fuentes de datos listos para usar (csv, excel, sql, json, parquet,…), cada uno de ellos con el prefijo __read_*()__.

Asegúrese de tener siempre un control de los datos después de leerlos. Al mostrar un DataFrame, la primera y las últimas 30 filas se mostrarán de forma predeterminada:

In [None]:
dir(pd)

In [None]:
titanic.head()

Si quiero ver las primeras 8 filas de un DataFrame de pandas, hagan lo siguiente:

In [None]:
titanic.head(8)

Para ver las primeras N filas de un DataFrame, use el método `head()` con el número requerido de filas (en este caso 8) como argumento.


Estás interesado en las últimas N filas? pandas también proporciona un método `tail()`. Por ejemplo, `titanic.tail(10)` devolverá las últimas 10 filas del DataFrame.

In [None]:
titanic.tail(10)

In [None]:
titanic.head()

### Eliminar espacios en blanco:
Para eliminar espacios por ejemplo en nombre de columnas usar la función `strip()`:

In [None]:
titanic["Columna con espacio"]=titanic["Name"]
titanic

In [None]:
titanic.rename(columns={'Columna conespacio':' Columnaconespacio '}, inplace=True)
titanic.head()

In [None]:
titanic.columns = [col.strip() for col in titanic.columns]
titanic.head()

Se puede verificar cómo pandas interpreta cada uno de los tipos de datos de columna solicitando el atributo pandas `dtypes`:

In [None]:
titanic.drop(columns=["Columnaconespacio"], inplace=True)

In [None]:
titanic.drop(columns=["Fare"])

In [None]:
titanic.head()

In [None]:
titanic.dtypes

Para cada una de las columnas, se incluye el tipo de datos utilizado. Los tipos de datos en este DataFrame son enteros (int64), flotantes (float64) y cadenas (objeto).

<div class="alert alert-block alert-info">
<b>Nota:</b> Al utilizar dtypes, no se utilizan paréntesis! dtypes es un atributo de DataFrame y Series. Los atributos de DataFrame o Series no necesitan paréntesis. Los atributos representan una característica de un DataFrame/Series, mientras que un método (que requiere paréntesis) hace algo con el DataFrame/Series
</div>

Si desean convertir este DataFrame en una hoja de cálculo:

In [None]:
dir(titanic)

In [None]:
titanic.to_excel('titanic.xlsx', sheet_name='passengers', index=False)

Mientras que las funciones `read_*()` se utilizan para leer datos en pandas, los métodos `to_*()` se utilizan para almacenar datos. El método `to_excel()` almacena los datos como un archivo de Excel. En el ejemplo aquí, `sheet_name` renombra la hoja a __pasajeros__ en lugar de __Sheet1__ que es el predeterminado. Al establecer `index = False`, las etiquetas de índice de fila no se guardan en la hoja de cálculo.

La función de lectura equivalente `read_excel()` volverá a cargar los datos en un DataFrame:

In [None]:
titanic = pd.read_excel('titanic.xlsx', sheet_name='passengers')
titanic.head()

Para visualizar un resumen técnico de un DataFrame:

In [None]:
titanic.info()

El método `info()` proporciona información técnica sobre un DataFrame, así que expliquemos el resultado con más detalle:

* De hecho, es un DataFrame.
* Hay 891 entradas, es decir, 891 filas.
* Cada fila tiene una etiqueta de fila (también conocida como índice) con valores que van de 0 a 890.
* La tabla tiene 12 columnas. La mayoría de las columnas tienen un valor para cada una de las filas (los 891 valores no son nulos). Algunas columnas tienen valores perdidos y menos de 891 valores no nulos.
* Las columnas Nombre, Sexo, Cabaña y Embarcado constan de datos textuales (cadenas, también conocido como objeto). Las otras columnas son datos numéricos con algunos de ellos números enteros (también conocidos como enteros) y otros son números reales (también conocidos como flotantes).
* El tipo de datos (caracteres, enteros,…) en las diferentes columnas se resumen enumerando los dtypes.
* También se proporciona la cantidad aproximada de RAM utilizada para contener el DataFrame.


<div class="alert alert-block alert-info">
<b>Recuerda:</b>
    <ul>
        <li>Las funciones read_*() admiten la introducción de datos en pandas desde diferentes formatos de archivo o fuentes de datos.</li>
        <li>La exportación de datos desde pandas se realiza mediante diferentes métodos to_*().</li>
        <li>Los métodos head/tail/info y el atributo dtypes son convenientes para una primera verificación.</li>
    </ul>
</div>

In [None]:
titanic

### Cómo selecciono columnas específicas de un DataFrame?
<img src="https://pandas.pydata.org/docs/_images/03_subset_columns.svg" width="70%" height="70%">

Para ver la edad de los pasajeros:

In [None]:
ages = titanic["Age"]
ages.head()

Para seleccionar una sola columna, use corchetes `[]` con el nombre de la columna de interés.

Cada columna de un DataFrame es un pandas Series. Cuando se selecciona una sola columna, el objeto devuelto es un pandas Series. Podemos verificar esto comprobando el tipo de salida:

In [None]:
type(titanic["Age"])

Y observe la forma de la salida:

In [None]:
titanic["Age"].shape

`DataFrame.shape` es un atributo de un pandas Series y DataFrame que contiene el número de filas y columnas: (nrows, ncolumns). Una pandas Series es unidimensional y solo se devuelve el número de filas.

Para ver la edad y sexo de los pasajeros del Titanic:

In [None]:
lista_de_col=["Age", "Sex"]

In [None]:
age_sex = titanic[lista_de_col]
age_sex.head()

Para seleccionar varias columnas, use una lista de nombres de columna dentro de los corchetes de selección `[]`

<div class="alert alert-block alert-info">
<b>Nota:</b> Los corchetes internos definen una lista de Python con nombres de columna, mientras que los corchetes externos se utilizan para seleccionar los datos de un DataFrame de pandas como se ve en el ejemplo anterior.
</div>
El tipo de datos devuelto es un DataFrame de pandas:

In [None]:
type(titanic[["Age", "Sex"]])

In [None]:
titanic[["Age", "Sex"]].shape

La selección devolvió un DataFrame con 891 filas y 2 columnas. Recuerda, un DataFrame es bidimensional con una dimensión de fila y columna.

Para obtener información básica sobre la indexación, consulte la sección de la guía del usuario sobre indexación y selección de datos: https://pandas.pydata.org/docs/user_guide/indexing.html#indexing-basics

### Cómo filtro filas específicas de un DataFrame?
<img src="https://pandas.pydata.org/docs/_images/03_subset_rows.svg" width="70%" height="70%">

Si deseo ver los pasajeros mayores a 35 años:

In [None]:
mayor_que_35 = titanic[titanic["Age"] > 35]

mayor_que_35.head()

La condición dentro de los corchetes de selección titanic `["Age"]> 35` comprueba qué filas tiene la columna `Age` con un valor mayor que 35:

In [None]:
titanic["Age"] > 35

La salida de la expresión condicional (>, pero también ==,! =, <, <=,… funcionaría) es en realidad un pandas Series de valores booleanos (Verdadero o Falso) con el mismo número de filas que el DataFrame original . Esta serie de valores booleanos se puede utilizar para filtrar el DataFrame colocándolo entre los corchetes de selección `[]`. Solo se seleccionarán las filas para las que el valor sea Verdadero.

Sabemos desde antes que el Titanic DataFrame original consta de 891 filas. Echemos un vistazo a la cantidad de filas que satisfacen la condición comprobando el atributo de forma del DataFrame resultante mayor_que_35:

In [None]:
mayor_que_35.shape

Si quiero visualizar pasajeros del Titanic de las clases de cabina 2 y 3:

In [None]:
clase_23 = titanic[titanic["Pclass"].isin([2, 3])]
clase_23.head()

Similar a la expresión condicional, la función condicional `isin()` devuelve un Verdadero para cada fila en la que los valores están en la lista proporcionada. Para filtrar las filas en función de dicha función, utilice la función condicional dentro de los corchetes de selección `[]`. En este caso, la condición dentro de los corchetes de selección titanic `["Pclass"].isin([2, 3])` comprueba en qué filas la columna `Pclass` es 2 o 3.

Lo anterior es equivalente a filtrar por filas para las que la clase es 2 o 3 y combinar las dos declaraciones con un operador `or: |`:

In [None]:
clase_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]
clase_23.head()

<div class="alert alert-block alert-info">
<b>Nota:</b> Cuando se combinan varias declaraciones condicionales, cada condición debe estar entre paréntesis <b>()</b>. Además, no puede utilizar las palabas <b>or/and</b>, pero necesita utilizar el operador <b>or: |</b> y el operador <b>and: &</b>.
</div>

Consulte la sección dedicada en la guía del usuario sobre indexación booleana (https://pandas.pydata.org/docs/user_guide/indexing.html#indexing-boolean) o sobre la función isin (https://pandas.pydata.org/docs/user_guide/indexing.html#indexing-boolean).

Quiero trabajar con datos de pasajeros para los que se conoce la edad:

In [None]:
titanic["Age"].notna()

In [None]:
age_no_na = titanic[titanic["Age"].notna()]

age_no_na.head()

La función condicional `notna()` devuelve un verdadero para cada fila, los valores no son un valor nulo. Como tal, esto se puede combinar con los corchetes de selección `[]` para filtrar la tabla de datos.

Quizás te preguntes qué cambió realmente, ya que las primeras 5 líneas siguen teniendo los mismos valores. Una forma de verificar es mirar si la forma ha cambiado:

In [None]:
age_no_na.shape

Para funciones más dedicadas sobre valores perdidos, consulte la sección de la guía del usuario sobre el manejo de datos perdidos: https://pandas.pydata.org/docs/user_guide/missing_data.html#missing-data

### Cómo selecciono filas y columnas específicas de un DataFrame?
<img src="https://pandas.pydata.org/pandas-docs/version/1.0.3/_images/03_subset_columns_rows1.svg" width="70%" height="70%">

Si quiero ver los nombres de pasajeros mayores a 35 años:

In [None]:
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]
adult_names.head()

In [None]:
type(adult_names)

En este caso, se crea un subconjunto de filas y columnas de una sola vez y ya no basta con usar corchetes de selección `[]`. Los operadores `loc/iloc` se requieren delante de los corchetes de selección `[]`. Al usar `loc/iloc`, la parte antes de la coma son las filas que desea, y la parte después de la coma son las columnas que desea seleccionar.

Cuando utilice nombres de columnas, etiquetas de filas o una expresión de condición, utilice el operador `loc` delante de los corchetes de selección `[]`. Tanto para la parte anterior como posterior a la coma, puede utilizar una sola etiqueta, una lista de etiquetas, un segmento de etiquetas, una expresión condicional o dos puntos. El uso de dos puntos especifica que desea seleccionar todas las filas o columnas.

Si quiero ver las filas 10 a 24 (los primeros 25 registros) y columnas 3 a 5:

In [None]:
titanic.head(10)

In [None]:
#primero slicing de filas, luego slicing de columnas
titanic.iloc[9:25, 2:5]

De nuevo, se crea un subconjunto de filas y columnas de una sola vez y ya no basta con usar corchetes de selección `[]`. Cuando esté específicamente interesado en ciertas filas y/o columnas según su posición en la tabla, utilice el operador `iloc` delante de los corchetes de selección `[]`.

Al seleccionar filas y/o columnas específicas con `loc` o `iloc`, se pueden asignar nuevos valores a los datos seleccionados. Por ejemplo, para asignar el nombre anónimo a los primeros 3 elementos de la tercera columna:

In [None]:
titanic.iloc[0:3, 3]

In [None]:
titanic.iloc[0:3, 3] = "anonymous"
titanic.head()

Consulte la sección de la guía del usuario sobre las diferentes opciones de indexación para obtener más información sobre el uso de loc e iloc: https://pandas.pydata.org/docs/user_guide/indexing.html#indexing-choice

<div class="alert alert-block alert-info">
<b>Recuerda:</b>
    <ul>
        <li>Al seleccionar subconjuntos de datos, se utilizan corchetes [].</li>
        <li>Dentro de estos corchetes, puede usar una sola etiqueta de columna/fila, una lista de etiquetas de columna/fila, un segmento de etiquetas, una expresión condicional o dos puntos.</li>
        <li>Seleccione filas y/o columnas específicas usando loc cuando use los nombres de filas y columnas</li>
        <li>Seleccione filas y/o columnas específicas usando iloc cuando use las posiciones en la tabla</li>
        <li>Puede asignar nuevos valores a una selección basada en loc/iloc.</li>
    </ul>
</div>

Puede ver una descripción general completa sobre la indexación en las páginas de la guía del usuario sobre indexación y selección de datos: https://pandas.pydata.org/docs/user_guide/indexing.html#indexing

### Pregunta para los que no asistieron de la clase en vivo o no obtuvieron el total de puntos (10 puntos):

1. En qué se diferencian el uso de la librería numpy de la librería pandas?

### Tareas

#### Tarea 1: (5p)
Crea un DataFrame llamado `expenses` que contenga los elementos del archivo `expenses.csv`.
Eliminar posibles espacios en los nombres de sus columnas.

Luego crear dos DataFrame en base a `expenses` con el nombre `hombres_menores_45` y `mujeres_mayores_26`. En cada uno debe estar solo los registros que cumplan la condición de sus nombres (ej: DataFrame `hombres_menores_45` solo con registros de hombres menores a 45 años, aplicar misma lógica al otro DataFrame).

Imprimir:
* `expenses`: los primeros 9 registros
* `hombres_menores_45`: los últimos 10 registros
* `mujeres_mayores_26`: los primeros 15 registros y los últimos 5 registros juntos (investigar).

En base al dataframe expenses:
* Hallar el valor mínimo de la columna Monthly Income. Imprimir el resultado
* Hallar el valor promedio de la columna Total Spend. Imprimir el resultado

#### Tarea 2: (5p)
Del DataFrame `hombres_menores_45` eliminar todas las columnas a excepción de las columnas __Items__, __Monthly Income__.
Y del DataFrame `mujeres_mayores_26` eliminar todas las columnas a excepción de las columnas __Record__ y __Total Spend__.

Crear 2 archivos excel donde:
* Para los hombres dejar solo los registros con 2 Items y con Monthly Income superior o igual a 4200
* Para las mujeres dejar solo los registros con 3 o más Record y con Total Spend mayor a 3800

Para ambos casos deben imprimir acá la cantidad de filas y columnas que guardan en el excel.