# Parte 3: Análisis de datos con `pandas`

<a href="https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf">
  <img src="https://pandas.pydata.org/static/img/pandas_white.svg" width="600">
</a>

Pandas es una librería de Python que se utiliza para análisis y manipulación de datos. Esta librería es muy popular en el ámbito de la ciencia de datos y el aprendizaje automático, ya que proporciona una amplia gama de herramientas para trabajar con datos estructurados, como tablas y hojas de cálculo.

Principales características:

- Estructuras de datos: dos tipos de estructuras de datos: `Series` (columna de datos) y `DataFrame` (tabla de datos).

- Manipulación de datos: selección, filtración, agregación y unión de datos.

- Análisis de datos:  estadísticas descriptivas, correlación entre variables y la visualización de datos.

- Integración: Pandas se integra fácilmente con  `NumPy`, `Scikit-learn` y `Matplotlib`.

Empezaremos importando `pandas` con el alias `pd` e imprimiendo su versión en la consola:

In [None]:
import numpy as np
import pandas as pd
print(pd.__version__)

## A. Series

- Una `Serie` de `pandas` es un objeto unidimensional que puede contener cualquier tipo de datos (`int`, `float`, `str`, `bool`, etc.).

- Cada elemento en una Serie está etiquetado con un índice, que por defecto `comienza en cero` y se incrementa de uno en uno.



### 1. `object`
Una serie de tipo `object` es una serie que puede contener cualquier tipo de objeto de Python, como cadenas de texto (string), números, listas, diccionarios, entre otros. 

En otras palabras, la serie de tipo `object` es la forma más general de serie en Pandas. Esto la hace flexible pero también puede resultar en un manejo menos eficiente de la memoria y los recursos en comparación con las series más específicas, como las de tipo float o int.

Para crear una serie de tipo `object`, se puede utilizar la función `pd.Series()` y pasar una lista de objetos como argumento. Por ejemplo:

In [None]:
# Creamos la lista de ciudades del Ecuador
mi_lista = ['Quito', -1, None, 3.14, [True, False], (0,1,2,3), {'mi_clave':'mi_valor'}]

# Creamos la Serie a partir de la lista
mi_serie_object = pd.Series(mi_lista)

# Obtenemos el tipo de objeto de la serie
print(type(mi_serie_object))

In [None]:
# Mostramos el contenido de la Serie
print(mi_serie_object)

Analicemos el contenido de la serie:

- La palabra `object` que se muestra en la última línea indica el tipo de serie. 

- Los números enteros que van de 0 a 6 al lado izquierdo se denominan `índices numéricos` que representan etiquetas de la posición de los elementos.

- Existen también `índices basados en etiquetas` que permiten acceder a los elementos de la serie de una manera más intuitiva y significativa.

- Los `índices` permiten realizar operaciones de `indexación` y `slicing`.

- Para acceder a un elemento individual de una serie, se puede utilizar el operador de indexación `[]`. 

Por ejemplo:







In [None]:
# Acceder al primer elemento de la serie
print(mi_serie_object[0])

In [None]:
# Acceder a los elementos en la posición 3 y 4
print(mi_serie_object[2:4])

Podemos verificar el tipo de dato de cada elemento de la serie tipo `object` con la ayuda de un bucle `for`:

In [None]:
# Para cada elemento en la serie «mi_serie_object»
# imprimir el elemento y el tipo de dato

for e in mi_serie_object:
  print(f'El tipo de dato de {e} es {type(e)}')

### 2. `string`

- Una serie de tipo `string` es una serie que solo puede contener cadenas de texto (string), lo que significa que se espera que todos los valores de la serie sean de tipo `str`.

- Las series de tipo `string` ofrecen algunas ventajas en términos de rendimiento en comparación con las de tipo `object`. 

Además, admiten una amplia gama de operaciones de cadena de texto y métodos de manipulación que no están disponibles para las series de tipo object, por ejemplo:

- `str.len()`: devuelve la longitud de cada cadena de texto en la serie.
- `str.upper()`: convierte todas las letras de las cadenas de texto en mayúsculas.
- `str.lower()`: convierte todas las letras de las cadenas de texto en minúsculas.
- `str.replace()`: reemplaza una subcadena de cada cadena de texto en la serie con otra subcadena especificada.
- `str.contains()`: devuelve una serie `booleana` que indica si cada cadena de texto contiene un texto especificado.
- `str.split()`: divide cada cadena de texto en la serie en subcadenas utilizando un delimitador especificado.

Para crear una serie de tipo string, se puede utilizar la función pd.Series() y pasar una lista de cadenas de texto como argumento. También es posible **convertir** una serie de tipo object a una serie de tipo string utilizando el método .astype().

In [None]:
# Crear una serie de tipo string con cinco nombres de ciudades capitales de América
cities = pd.Series(['Bogotá', 'Lima', 'Buenos Aires', 'Brasilia', 'Mexico City'], dtype='string')

# Obtener la longitud (número de caracteres)de cada cadena de texto en la serie
print(cities.str.len())

In [None]:
# Convertir todas las letras en mayúsculas
print(cities.str.upper())

In [None]:
# Convertir todas las letras en minúsculas
print(cities.str.lower())

In [None]:
# Reemplazar una subcadena de cada cadena de texto en la serie con otra subcadena especificada
print(cities.str.replace('a', 'X'))

In [None]:
# Verificar si cada cadena de texto contiene un texto especificado.
print(cities.str.contains('Lima'))

In [None]:
# Dividir cada cadena de texto en la serie en subcadenas utilizando un delimitador especificado
print(cities.str.split(' '))

### 3. `category`
- Una serie de tipo category se utiliza para representar datos categóricos: variables que toman un número limitado de valores posibles, como las variables que representan la marca de un automóvil, el género de una persona o el estado civil. 

- Se utilizan para representar datos categóricos de manera más eficiente y con menos memoria que las series de tipo object o string. 

Para crear una serie de tipo category, se puede utilizar la función `pd.Series()` y pasar una lista de valores categóricos como argumento, y luego convertir esa serie tipo category mediante el método `.astype('category')`. También es posible crear una serie de tipo category directamente mediante el uso del parámetro `dtype='category'` al crear la serie.

Algunas de las operaciones específicas que se pueden realizar en las series de tipo category incluyen:
- `value_counts()`: conteo de frecuencias de las categorias de la serie.
- `cat.categories`: devuelve una lista de las categorías de la serie.
- `cat.codes`: devuelve una serie de los códigos enteros correspondientes a las categorías de la serie.
- `cat.reorder_categories()`: reordena las categorías de la serie en un orden especificado.
- `cat.add_categories()`: agrega nuevas categorías a la serie.
- `cat.remove_categories()`: elimina categorías de la serie.
- `cat.remove_unused_categories()`: elimina categorías que no están presentes en la serie.

Veamos algunos ejemplos:

In [None]:
# Creamos la serie de estado civil 
estado_civil = pd.Series(['soltero', 'casado', 'viudo', 'casado', 'divorciado', 'soltero', 'casado', 'viudo'])
print(estado_civil)

In [None]:
# Transformammos la serie de tipo 'object' a tipo 'category'
estado_civil = estado_civil.astype('category')
print(estado_civil)

In [None]:
# Obtenemos las categorías únicas de la serie
categorias = estado_civil.cat.categories
print(categorias)

In [None]:
# Obtenemos los códigos enteros correspondientes a las categorías de la serie
codigos = estado_civil.cat.codes
print(codigos)

In [None]:
# Reordenamos las categorías de la serie en un orden específico
nuevo_orden = ['soltero', 'casado', 'viudo', 'divorciado']
nuevo_estado_civil = estado_civil.cat.reorder_categories(nuevo_orden)
print(nuevo_estado_civil)

In [None]:
# Agregamos dos nuevaa categorías a la serie
nuevo_estado_civil = nuevo_estado_civil.cat.add_categories(['separado', 'unión libre'])
print(nuevo_estado_civil)

In [None]:
# Eliminamos la categoría 'separado' de la serie
nuevo_estado_civil = nuevo_estado_civil.cat.remove_categories(['separado'])
print(nuevo_estado_civil)

In [None]:
# Eliminamos las categorías no utilizadas de la serie
nuevo_estado_civil = nuevo_estado_civil.cat.remove_unused_categories()
print(nuevo_estado_civil)

### 4. `boolean`

- Es una serie que contiene valores booleanos (`True` o `False`) 

- Pueden ser creadas a partir de cualquier tipo de serie mediante el uso de operaciones lógicas como `and`, `or`, `not`, etc.

Algunas operaciones que se pueden realizar en series booleanas incluyen:

- Selección de datos: se pueden utilizar para seleccionar ciertos datos de una serie en base a una condición. 

- Agregación de datos: se pueden utilizar para realizar operaciones de agregación, como contar el número de valores True en la serie.

Ejemplo: crear una serie booleana a partir de una serie de números enteros que representan edades, donde se indica si un elemento cumplele o no con una cierta condición. 


In [None]:
# Creamos una serie de edades
edades = pd.Series([25, 36, 19, 42, 31, 27])

# Creamos una serie booleana indicando si cada edad es mayor o menor que 30
mayores_que_30 = edades > 30
print(mayores_que_30)

In [None]:
# Seleccionar solo los mayores a 30
print(edades[mayores_que_30])

Es posible aplicar operadores lógicos a series booleanas para realizar comparaciones y filtrado de datos. Los operadores lógicos disponibles son:

- El operador `&` para realizar la operación `and` entre dos series booleanas.
- El operador `|` para realizar la operación `or` entre dos series booleanas.
- El operador `~` para realizar la operación `not` sobre una serie booleana.

Estos operadores funcionan de manera similar a los operadores lógicos en Python estándar, pero a diferencia de ellos, los operadores en Pandas son vectorizados, lo que significa que se aplican elemento por elemento en las series booleanas.

In [None]:
# Creamos una serie de edades
edades = pd.Series([25, 36, 19, 42, 31, 27])

# Crear series booleanas en base a condiciones
mayores_que_30 = edades > 30
menores_que_40 = edades < 40

# Operación lógica entre series
mayores_que_30_y_menores_que_40 = mayores_que_30 & menores_que_40

# Selección de elementos que cumplen con la condición
edades[mayores_que_30_y_menores_que_40]

In [None]:
# Seleccionar los que no cumplen con la condición mayores_que_30_y_menores_que_40
print(edades[~mayores_que_30_y_menores_que_40])

### 5. `int`

- Contiene valores enteros. 
- Útiles para trabajar con datos de números enteros como edades, números de identificación, cantidades de productos, entre otros.
- Operaciones matemáticas básicas (suma, resta, multiplicación y división) y de comparación (mayor que, menor que, igual a, etc.).
- Funciones estadísticas (máximo, mínimo, desviación estándar, etc.).

Pandas también ofrece otras [funciones útiles](https://pandas.pydata.org/docs/reference/api/pandas.Series.html) como `quantile`, `cumsum`, `cumprod`, entre otras, que permiten analizar y manipular los datos de manera más detallada.



In [None]:
# Crear una serie numérica de enteros
s = pd.Series([1, 2, 3, 4, 5])
print(s)

In [None]:
# Realizar una operación aritmética con la serie
print(s + 10)

In [None]:
# Calcular la suma de los elementos de la serie
print(s.sum())

In [None]:
# Calcular el valor mínimo de la serie
print(s.min())

# Calcular el valor máximo de la serie
print(s.max())

In [None]:
# Calcular la media aritmética de los elementos de la serie
print(s.mean())

# Calcular la mediana de los elementos de la serie
print(s.median())

In [None]:
# Calcular la desviación estándar de los elementos de la serie
print(s.std())

# Calcular la varianza de los elementos de la serie
print(s.var())

In [None]:
# Calcular la multiplicación de dos series
s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6])
print(s1 * s2)

### 6. `float`
Una serie tipo float es una serie que contiene valores en punto flotante y son útiles cuando trabajamos con datos que se representan como números reales como:  precios, tasas de interés, mediciones físicas, entre otros.

Los métodos de las series de números enteros `int` aplican también para series de punto flotante. Veamos algunos ejemplos:



In [None]:
# Crear una serie de punto flotante
s = pd.Series([3.14, 2.71, 1.62, 0.99, 4.20])
print(s)

In [None]:
# Realizar operaciones matemáticas con la serie
print(s ** 2)

In [None]:
# Aplicar funciones estadísticas a la serie
print(s.mean())

In [None]:
# Convertir la serie de punto flotante a una serie de enteros
s_int = s.astype(int)
print(s_int)

### 7. datetime
- Las series de tipo datetime se utilizan para representar fechas y tiempos. 

- Para crear una serie de tipo datetime , se puede utilizar la función `pd.to_datetime()` que convierte un `string` que representa una fecha y hora, en un objeto de tipo datetime. 

Este tipo de serie proporciona un conjunto de [métodos](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.time.html) a los que se puede acceder a través del atributo `dt`. Entre los más importantes tenemos:

- `dt.year`: Retorna el año correspondiente al valor datetime.
- `dt.month`: Retorna el mes correspondiente al valor datetime.
- `dt.day`: Retorna el día correspondiente al valor datetime.
- `dt.hour`: Retorna la hora correspondiente al valor datetime.
- `dt.minute`: Retorna el minuto correspondiente al valor datetime.
- `dt.second`: Retorna el segundo correspondiente al valor datetime.
- `dt.weekday`: Retorna el día de la semana (de lunes a domingo) correspondiente al valor datetime.
- `dt.week`: Retorna el número de semana del año correspondiente al valor datetime.
- `dt.strftime`: Convierte la serie DatetimeIndex en una cadena con un formato personalizado.



In [None]:
date_str = pd.Series(['2003-02-15 05:53:00', '1994-10-05 08:56:00', '2009-03-05 06:06:00'])
date_series = pd.to_datetime(date_str)
date_series

In [None]:
# Extraer el año de las fechas
date_series.dt.year

In [None]:
# Extraer el mes de la fecha
date_series.dt.month

In [None]:
# Extraer el día de la fecha
date_series.dt.day

También podemos utilizar códigos de formato de fecha para crear mostrar la fecha en un formato personalizado. Entre los principales códigos de formato tenemos:

- `%Y`: Año con cuatro dígitos.
- `%y`: Año con dos dígitos.
- `%m`: Mes como un número decimal con cero a la izquierda (01-12).
- `%B`: Nombre completo del mes.
- `%b`: Nombre abreviado del mes.
- `%d`: Día del mes como un número decimal con cero a la izquierda (01-31).
- `%A`: Nombre completo del día de la semana.
- `%a`: Nombre abreviado del día de la semana.
- `%w`: Día de la semana como un número decimal, donde el domingo es 0 y el sábado es 6.
- `%j`: Día del año como un número decimal con cero a la izquierda (001-366).
- `%W`: Número de semana del año (lunes como primer día de la semana) como un número decimal con cero a la izquierda (00-53).
- `%H`: Hora (reloj de 24 horas) como un número decimal con cero a la izquierda (00-23).
- `%I`: Hora (reloj de 12 horas) como un número decimal con cero a la izquierda (01-12).
- `%p`: 'AM' o 'PM' según la hora especificada.
- `%M`: Minuto como un número decimal con cero a la izquierda (00-59).
- `%S`: Segundo como un número decimal con cero a la izquierda (00-59).



Por ejemplo:

In [None]:
# Formatear las fechas usando dt.strftime
date_series.dt.strftime('%B/%d/%Y  %I:%M %p')

### 8. Ejercicios

1. A partir de la lista `correos_electronicos`, crea una serie de Pandas tipo `string` y realiza lo siguiente_

- Utilizando el método `str.lower()`Transforma la serie para que todas las letras sean minúsculas.

- Utiliza la función `str.contains()` para encontrar todas las direcciones de correo electrónico que contengan el dominio `gmail.com`.
- ¿Cuántos correos electrónicos pertenecen a gmail?

In [None]:
correos_electronicos = ['usuario1@gmaiL.com', 'usuario2@Hotmail.com', 'usuario3@hotMail.com', 
                        'usuario4@Yahoo.com', 'usuario5@yaHoo.com', 'usuario6@GMAIL.com', 'usuario7@gMail.com', 
                        'usuario8@gmail.com', 'usuario9@Gmail.com', 'usuario10@yahoo.com', 'usuario11@gMAIL.com', 
                        'usuario12@GMAIL.com', 'usuario13@yahoo.com', 'usuario14@yahoo.com', 'usuario15@Gmail.com', 
                        'usuario16@hotmail.com', 'usuario17@gmaIl.com', 'usuario18@yAhoo.com', 'usuario19@gmail.com', 
                        'usuario20@yahOO.com']

In [None]:
# Su código aquí

2. A partir de la lista `ingresos`, crea una serie de tipo `int` y realiza las siguientes operaciones:

- Utiliza el método `describe()` para obtener estadísticas descriptivas de la serie.

- Filtrar la serie para obtener ingresos mayores que USD 3000 y menores a USD 4500.

- Utilizar el método `median()` para obtener la mediana de la serie de ingresos.

In [None]:
ingresos = [1527.84, 2548.98, 2059.94, 4069.41, 4812.55, 2250.53, 2410.66, 4476.56, 1668.3, 1006.32, 
            4438.22, 3461.35, 3535.43, 4623.05, 4266.33, 4142.31, 4127.22, 4625.72, 4389.54, 4568.44]

In [None]:
# Su código aquí

3. Calcular la edad actual de un grupo de personas a partir de una serie con 10 fechas de nacimiento:
- Transforme la serie a tipo datetime utilizando `pd.to_datetime()`.
- Utilice la función `pd.Timestamp.today()` para obtener la fecha de hoy y calcular la edad.
- El resultado puede formatearse con el método `.astype('<m8[Y]')` para obtener la edad.

In [None]:
# Crear una lista de fechas de nacimiento
birth_dates = pd.Series(['1990-01-15', '1985-03-21', '2000-06-30', '1975-11-12', '1997-08-05',
                         '1988-02-17', '1992-10-25', '2001-04-14', '1970-12-22', '1982-07-19'])

In [None]:
# Su código aquí

## B. DataFrames




<div align="center">
    <a href="https://realpython.com/pandas-dataframe/">
      <img src="https://realpython.com/cdn-cgi/image/width=1920,format=auto/https://files.realpython.com/media/A-Guide-to-Pandas-Dataframes_Watermarked.7330c8fd51bb.jpg" width="500">
    </a>
</div>



- Un DataFrame es una estructura de datos bidimensional, tabular y etiquetada que se utiliza para almacenar y manipular datos en Python.

- Cada columna del dataframe es en una serie de pandas.

- Tienen filas y columnas, y se puede visualizar como una hoja de cálculo o una tabla SQL. 

- Las filas se etiquetan con índices y las columnas se etiquetan con nombres. Esto hace que los datos sean fáciles de manipular y analizar, ya que se pueden seleccionar, filtrar y agrupar filas y columnas en función de criterios específicos.

- Se pueden crear DataFrames de varias maneras, incluyendo la importación de datos de archivos `CSV` o `Excel`, conversión de otras estructuras de datos y cualquier otro método soportado por la función `pd.DataFrame()`.

En el siguiente ejemplo se crea un DataFrame a partir de un diccionario que contiene 8 claves y cada clave tiene una lista de valores correspondientes. 




In [None]:
# Creamos el diccionario con los datos



calificaciones = {
    'ID': ['A001', 'A002', 'A003', 'A004', 'A005', 'A006', 'A007', 'A008', 'A009', 'A010'],
    'Sexo': ['M', 'F', 'M', 'F', 'F', 'M', 'F', 'M', 'M', 'F'],
    'Microeconomía': [8.5, 9.0, 7.5, 6.0, 7.0, 8.0, 9.0, 8.5, 6.5, 7.5],
    'Macroeconomía': [7.0, 8.5, 9.0, 6.5, 7.5, 8.0, 8.5, 6.0, 9.0, 8.0],
    'Econometría': [9.0, 7.5, 8.0, 8.5, 7.0, 6.5, 9.0, 8.0, 7.5, 8.5],
    'Política económica': [8.0, 7.0, 6.5, 9.0, 8.5, 7.5, 7.0, 9.0, 8.0, 6.5],
    'Becado': [False, False, False, True, False, False, True, False, False, False],
    'Beca USD': [0, 0, 0, 500, 0, 0, 850, 0, 0, 0], 
    'Fecha Inscripción': pd.to_datetime([ '2022-06-12 04:57:23', '2020-09-01 18:43:12', 
                                                '2021-11-28 23:22:15', '2020-02-20 07:15:44', 
                                                '2023-01-18 10:09:35', '2021-07-03 16:05:38', 
                                                '2019-12-23 12:11:42', '2018-04-07 20:16:03', 
                                                '2017-08-13 09:54:28', '2019-05-02 14:30:55'])
}


random_datetimes = [ '2022-06-12 04:57:23', '2020-09-01 18:43:12', '2021-11-28 23:22:15', '2020-02-20 07:15:44', '2023-01-18 10:09:35', 
                    '2021-07-03 16:05:38', '2019-12-23 12:11:42', '2018-04-07 20:16:03', '2017-08-13 09:54:28', '2019-05-02 14:30:55']



# Creamos el DataFrame a partir del diccionario
df = pd.DataFrame(calificaciones)

# Mostramos el DataFrame
print(type(df))

In [None]:
# Mostramos el DataFrame en consola
df

### 1. Atributos
Aquí una breve descripción de algunos de los atributos más importantes que se pueden utilizar para obtener información sobre un dataframe de pandas:

- `shape`: devuelve una `tupla` que indica el número de filas y columnas de un dataframe.

- `columns`: devuelve una `lista` de las columnas del dataframe.

- `dtypes`: devuelve una serie con el tipo de datos de cada columna del dataframe.

- `index`: muestra el índice asociado a las filas.



In [None]:
# El número de filas y columnas 
df.shape

In [None]:
# Las columnas del dataframe son
df.columns

In [None]:
# Tipos de datos de cada columna/serie
df.dtypes

In [None]:
# Acceder al índice
df.index

### 2. Métodos para exploración
Entre los métodos más útiles para explorar rápidamente los dataframes en Pandas tenemos:

- `.head()`: devuelve las primeras n filas de un dataframe (por defecto, n=5). Es muy útil para obtener una vista previa rápida del contenido del dataframe y para verificar que los datos se hayan cargado correctamente.

- `.tail()`: devuelve las últimas n filas de un dataframe (por defecto, n=5). 

- `info()`: devuelve un resumen conciso de la información de un dataframe, incluyendo el número de filas y columnas, el nombre de las columnas, el número de valores no nulos en cada columna y el tipo de datos de cada columna.

- `describe()`: se utiliza para obtener estadísticas descriptivas en función del tipo de columnas.

- `drop()`: se utiliza para eliminar filas o columnas del dataframe.

- `sort_values()`: se utiliza para ordenar el dataframe por una o varias columnas.


In [None]:
 # Observar las n primeras filas del DataFrame
df.head()

In [None]:
# Observar las n últimas filas del DataFrame
df.tail(3)

In [None]:
# Información del dataframe
df.info()

In [None]:
# Describir solo columnas numéricas por defecto
df.describe()

In [None]:
# Describir solo columnas bool y object
df.describe(include = ['bool', 'object'])

In [None]:
# Desechar columnas
df.drop(columns = ['Política económica', 'Microeconomía'])

In [None]:
# Desechar filas
df.drop(labels = [2,4,6,8])

In [None]:
# Ordenar dataframe en función de una columna
df.sort_values(['Fecha Inscripción'], ascending = False)

### 3. Indexación y slicing
La indexación y el slicing se utilizan para seleccionar una parte específica del dataframe. 
- Indexación: selección de una o varias columnas o filas específicas del dataframe.

- Slicing: se utiliza para seleccionar un subconjunto de filas y/o columnas del dataframe.

Para la indexación, pandas utiliza dos métodos: `loc` y `iloc`. 
- `loc`: para seleccionar filas y columnas por etiqueta o etiqueta booleana.
- `iloc`: para seleccionar filas y columnas por índice numérico entero.

Los dos métodos comoparten la misma sintaxis: 

```
df.loc[filas, columnas]
```
Donde `filas` y `columnas` pueden ser una etiqueta individual, una lista de etiquetas o un rango de etiquetas utilizando los operadores `:` y `[]`.


También es importante tener en cuenta que ambos métodos devuelven una vista del dataframe original, lo que significa que cualquier cambio que se haga en el subconjunto seleccionado se reflejará en el dataframe original. Para evitar esto, se puede utilizar el método `copy()` para crear una copia del subconjunto seleccionado.

Para entender cómo usar correctamente los dos métodos, primero haremos algunas modificaciones a nuestro dataset:







In [None]:
# Primero veamos nuestro dataframe
df

Utilizaremos el método `set_index()` para asignar a la columna `ID` como nuevo índice de las columnas del dataframe, sobreescribiendo el índice numérico original. El argumento `inplace` nos permite ejecutar la modificación directamente sin necesidad de asignar el resultado en un objeto. Este argumento está presente en varios métodos que veremos más adelante.

In [None]:
# Asignaremos a la columna ID como nuevo índice
df.set_index('ID', inplace = True)
df

In [None]:
# loc: filas y columnas por etiqueta booleana.
df.loc[df['Becado'] == True , :]

In [None]:
# loc: filas y columnas por etiqueta
df.loc[:'A006', ['Econometría', 'Microeconomía']]

In [None]:
# El mismo resultado con iloc (seleccionar filas y columnas por índice numérico.)
df.iloc[:7, [3,2]]

Además de iloc y loc, existen otros métodos para seleccionar columnas y filas de un dataframe de pandas. Algunos de ellos son los siguientes:

- `[]`: Permite seleccionar una o varias columnas del dataframe utilizando el nombre de la(s) columna(s) como un string o una lista de strings. Por ejemplo, para seleccionar las columnas A y B del dataframe df, se puede utilizar el siguiente código: `df[['A', 'B']]`.

- `query()`: Permite seleccionar filas del dataframe utilizando una expresión booleana. Por ejemplo, para seleccionar todas las filas donde la columna A es mayor que 2, se puede utilizar el siguiente código: `df.query('A > 2')`.

- `filter()`: Permite seleccionar columnas del dataframe utilizando una expresión booleana sobre los nombres de las columnas. Por ejemplo, para seleccionar todas las columnas que comienzan con la letra A, se puede utilizar el siguiente código: `df.filter(like='A')`.


Finalmente, todos lo métodos de pandas pueden encadenarse en una sola línea de código. Por ejemplo, para obtener el promedio de calificación de los becarios en Econometría

In [None]:
# Ejemplo con query para obtener el promedio de notas de la 
# matería econometría para quienes obtuvieron menos de 7.5 
# en microeconomía 
df.query('Microeconomía < 7.5')['Econometría'].mean()

### 4. Reestructuración del dataframe

Las funciones, `pd.melt()`, `pd.concat()` y `pivot()` son funciones muy útiles para reorganizar y transformar dataframes de pandas. 
- `pd.melt()`: se utiliza para convertir columnas en filas.
- `pd.concat()`: se utiliza para concatenar dos o más dataframes
- `pivot()`: se utiliza para crear una tabla dinámica a partir de un dataframe.

Primero modifiquemos nuestro dataframe para que el índice sea nuevamente numérico. Para ello vamos a resetear el índice con ayuda del método `reset_index()`:

In [None]:
# Resetear el índice
df.reset_index(inplace = True)
df

#### `pd.melt()` 
Se utiliza para "derretir" un dataframe, es decir, convertir columnas en filas. Esto puede ser útil cuando se tiene un dataframe con múltiples columnas que representan diferentes variables y se desea convertir estas columnas en filas para facilitar su análisis. Los argumentos son:

- `df`: es el dataframe que se desea derretir.
- `id_vars`: son las columnas que se desean mantener como identificadores.
- `value_vars`: son las columnas que se desean "derretir". 
- `var_name`: Nombre de la columna para las variables.
- `value_name`: Nombre de la columna de valores.

In [None]:
# Derretir el dataframe (convertir filas en columnas)
df_derretido = pd.melt(
    df, 
    id_vars = ['ID', 'Becado'], 
    value_vars = ['Macroeconomía', 'Econometría'], 
    var_name = 'Variable', 
    value_name = 'Valores'
)

df_derretido

#### `pivot()`
Crea tablas dinámicas a partir de un dataframe. Esto puede ser útil cuando se tiene un dataframe con múltiples filas que representan diferentes categorías y se desea convertir estas filas en columnas para facilitar su análisis. Los argumentos son:
- `index`: columnas que haran de índice en el nuevo dataframe
- `columns`: la columna que contiene los valores que se convertirán en las nuevas columnas del nuevo dataframe.
- `values`: la columna que contiene los valores con los que se poblará el nuevo dataframe.

En el siguiente ejemplo reconstruiremos la estructura del dataframe inicial a partir del dataframe derretido:




In [None]:
# Reconstrucción de la estructura inicial del dataframe
df_derretido\
  .pivot(index = ['ID',	'Becado'], columns = 'Variable', values = 'Valores')

### 5. Lectura de datos

<div align="center">
    <a href="https://realpython.com/pandas-read-write-files/">
      <img src="https://realpython.com/cdn-cgi/image/width=1920,format=auto/https://files.realpython.com/media/Reading-and-Writing-Data-With-Pandas_Watermarked.435ef1c38466.jpg" width="500">
    </a>
</div>




Ahora que conocemos las bases de pandas DataFrames, es hora de importar nuestros propios datos. Pandas tiene varias funciones para leer diferentes tipos de archivos y crear un DataFrame a partir de ellos.



#### `pd.read_excel()`
La función `pd.read_excel()` se utiliza para leer archivos de Excel en formato `.xlsx`. Esta función tiene muchos argumentos, pero algunos de los más importantes son:
-  `io` que especifica la ubicación del archivo. 
- `sheet_name` que especifica qué hoja del archivo de Excel debe leerse.
- `header` que indica si la primera fila del archivo de Excel contiene encabezados de columna. 

Aquí hay un ejemplo con el dataset penguins que contiene información sobre una investigación de los pingüinos del archipiélago Palmer en la Antártida:



<div align="center">
    <a href="https://allisonhorst.github.io/palmerpenguins/">
      <img src="https://allisonhorst.github.io/palmerpenguins/reference/figures/lter_penguins.png" width="500">
    </a>
</div>

In [None]:
penguins = pd.read_excel('/content/penguins.xlsx', sheet_name='data', header=0)
penguins

#### `pd.read_csv()`

La función `pd.read_csv` se utiliza para leer archivos de texto separados por comas (CSV). Esta función también tiene varios argumentos, pero algunos de los más importantes son:
- `io`  especifica la ubicación del archivo.
- `delimiter`: especifica el caracter que separa los valores en el archivo CSV.
- `header`: indica si la primera fila del archivo  contiene encabezados de columna.



 Aquí hay un ejemplo utilizando el dataset [`california_housing`](https://developers.google.com/machine-learning/crash-course/california-housing-data-description) que contiene información sobre las características de residencias familiare en California a partir del Censo de los Estados Unidos de 1990:


<div align="center">
    <a href="https://es.wikipedia.org/wiki/Censo_de_los_Estados_Unidos_de_1990">
      <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/b/bd/1990USCensusLogo.svg/440px-1990USCensusLogo.svg.png" width="250">

</div>

 

In [None]:
path = '/content/sample_data/california_housing_train.csv'
cali_housing = pd.read_csv(path, delimiter = ',', header = 0)
cali_housing


#### `pd.read_sql`

Esta función se utiliza para leer datos de una base de datos SQL y convertirlos en un objeto DataFrame. 

Los argumentos más importantes son:
- `sql`: especifica una consulta (query) SQL para seleccionar los datos.
- `con`: especifica la conexión a la base de datos. 

Chinook es una base de datos que representa una tienda de medios digitales, con tablas para artistas, álbumes, canciones, facturas y clientes. Contiene datos generados a partir de una biblioteca de iTunes y también información ficticia de clientes y empleados. La información de ventas se genera automáticamente y cubre un período de cuatro años. 

Analicemos el siguiente gráfico con las relaciones entre las tablas de la base de datos Chinook. A manera de ejemplo, trabajaremos con las tablas tracks, albums y artistas.

<div align="center">
<a href="https://www.sqlitetutorial.net/sqlite-sample-database/">
  <img src="https://www.sqlitetutorial.net/wp-content/uploads/2015/11/sqlite-sample-database-color.jpg" width="700">
</a>
</div>

In [None]:
# La librería sqlite trabaja con bases de datos sin necesidad de servidores
import sqlite3

# Leemos la tabla tracks
conn = sqlite3.connect('/content/chinook.db')

artists = pd.read_sql('SELECT * FROM artists', conn)
albums = pd.read_sql('SELECT * FROM albums', conn)
tracks = pd.read_sql('SELECT * FROM tracks', conn)

tracks.head()

In [None]:
artists.head()

In [None]:
albums.head()

### 6. Joins

El método `merge()` en pandas se utiliza para unir dos o más DataFrames en función de una o más columnas comunes, lo que equivale a realizar un join en SQL. `merge()` es una herramienta poderosa que permite combinar información de diferentes fuentes y es especialmente útil en el análisis de datos.

La sintaxis básica de `merge()` es la siguiente:
```
df.merge( right_df, on='columna_comun', how = 'tipo_join')
```
donde: 
- `right_df` es el DataFrames que se desean unir.
- `on` es la columna en la que se basará la unión.
- `how` especifica el tipo de unión que se realizará en los DataFrames. Los tipos de unión disponibles son:

 1. `inner`: devuelve solo las filas que tienen valores coincidentes en ambos DataFrames.
 1. `outer`: devuelve todas las filas de ambos DataFrames, reemplazando los valores faltantes con NaN cuando no hay una coincidencia.
 1. `left`: devuelve todas las filas del DataFrame izquierdo y las filas coincidentes del DataFrame derecho.
 1. `right`: devuelve todas las filas del DataFrame derecho y las filas coincidentes del DataFrame izquierdo.

Veamos un ejemplo con los datos de Chinook:

In [None]:
# Conectar a la base de datos Chinook
conn = sqlite3.connect('/content/chinook.db')

# Consultar los datos de las tablas artists y albums
artists = pd.read_sql('SELECT * FROM artists', conn)
albums = pd.read_sql('SELECT * FROM albums', conn)

# Realizar inner join en las columnas comunes
artist_w_albums = artists.merge(albums, on='ArtistId', how='inner')

# Imprimir el resultado
artist_w_albums

### 7. Agrupamiento



<div align="center">
    <a href="https://realpython.com/pandas-groupby/">
      <img src="https://realpython.com/cdn-cgi/image/width=1920,format=auto/https://files.realpython.com/media/Grouping-and-Aggregating-Data-in-Pandas_Watermarked.d79eb1266abf.jpg
" width="500">
    </a>
</div>

El método `groupby` de un DataFrame de pandas se utiliza para agrupar filas según los valores de una o más columnas y realizar operaciones en cada grupo. Esto permite analizar y resumir datos de una manera más efectiva.

Cuando se llama al método `groupby` en un DataFrame, se crea un objeto GroupBy que se puede utilizar para realizar diversas operaciones de agregación en los datos. Por ejemplo, puedes utilizar los métodos `count`, `sum`, `mean`, `max` y `min` para resumir los datos en cada grupo.

Aquí hay un ejemplo que muestra cómo utilizar el método groupby para encontrar qué artista tiene el catalogo más valorado:

In [None]:
# Conectar a la base de datos Chinook
conn = sqlite3.connect('chinook.db')

# Consultar los datos de las tablas artists, albums y tracks
artists = pd.read_sql('SELECT * FROM artists', conn)
albums = pd.read_sql('SELECT * FROM albums', conn)
tracks = pd.read_sql('SELECT * FROM tracks', conn)

# Añadir un prefijo a los nombres de columna de tracks
tracks.columns = ['tracks_'+c for c in tracks.columns]

# Realizar joins para combinar las tablas
artist_w_albums = artists.merge(
    albums, 
    on = 'ArtistId', 
    how='inner'
)

artist_w_albums_w_tracks = artist_w_albums.merge(
    tracks, 
    left_on = 'AlbumId', 
    right_on = 'tracks_AlbumId', 
    how='inner'
)

# Agrupar por nombre de artista y sumar los precios de tracks
artist_w_albums_w_tracks\
  .groupby('Name')\
  .tracks_UnitPrice.sum()\
  .sort_values(ascending = False)

### 8. Tablas de contingencia

La función `pd.crosstab()` es una herramienta que se utiliza para crear tablas de contingencia (también conocidas como tablas de frecuencia cruzada) a partir de datos en bruto. Es una forma conveniente de resumir y analizar los datos categóricos.

La tabla de contingencia es una herramienta estadística que se utiliza para resumir la distribución de frecuencia de dos o más variables categóricas, mostrando cuántas veces cada combinación de categorías aparece en los datos.

Sintaxis: 
```
pd.crosstab(index, columns, values=None, aggfunc=None, 
            margins=False, margins_name='All', dropna=True,
            normalize=False)
```

Argumentos:

- `index`: La variable que se utilizará como fila en la tabla de contingencia.
- `columns`: La variable que se utilizará como columna en la tabla de contingencia.
- `values`: La variable que se utilizará para calcular las estadísticas (como la media) dentro de cada celda de la tabla. Si no se proporciona, se mostrará la frecuencia.
- `aggfunc`: Función de agregación para aplicar a los valores. Por defecto, se utiliza la función de agregación 'count'.
- `margins`: Si es True, se agregan filas y columnas para mostrar los totales. El valor predeterminado es False.
- `margins_name`: El nombre de las filas y columnas que se agregarán si se especifica 
- `dropna`: Si es True, las filas con valores nulos se eliminan. El valor predeterminado es True.
- `normalize`: Si es True, la tabla de contingencia se normaliza dividiendo cada celda por el total. El valor predeterminado es False.

Ejemplo

In [None]:
# Datos de ejemplo
df

In [None]:
# Tabla cruzada entre sexo y condición beca
pd.crosstab(df.Sexo, df.Becado)

# New section

In [None]:
# Tabla cruzada con márgenes
pd.crosstab(df.Sexo, df.Becado, margins = True, margins_name = 'Totales')

In [None]:
# Tabla cruzada con promedios por segmento
pd.crosstab(df.Sexo, df.Becado, values = df.Econometría, aggfunc = 'mean')

### 9. Plots
El método `plot` es una función de visualización de pandas que se utiliza para crear gráficos de series de datos.

Al utilizar el método plot, pandas permite generar gráficos rápidamente y con una gran variedad de opciones de personalización. Entre los tipos de gráficos disponibles están:

- Gráfico de línea (por defecto): `line`
- Gráfico de barras: `bar`
- Gráfico de barras apiladas: `barh`
- Gráfico de área: `area`
- Gráfico de dispersión: `scatter`
- Gráfico de pastel: `pie`

Además, el método `plot` permite modificar muchos aspectos del gráfico, como el título, las etiquetas de los ejes, los colores, el tamaño, el estilo de línea y la transparencia. 


In [None]:
# Llamamos al módulo matplotlib para controlar el plot
import matplotlib.pyplot as plt

# Operación de agrupación encadenada a la generaciónd de un plot
artist_w_albums_w_tracks\
  .groupby('Name')\
  .tracks_UnitPrice.sum()\
  .sort_values(ascending = False)\
  .head(5)\
  .plot(title = 'Top 5 catálogos más valiosos', 
        xlabel = 'Artista', 
        ylabel = 'Valor (USD)')

# Función para mostrar la figura actual en la pantalla
plt.show()

### 10. Datos perdidos

En un DataFrame de pandas, los datos perdidos se representan generalmente como valores `NaN` (Not a Number) o `None`. 

Los datos perdidos en un DataFrame pueden ser problemáticos porque pueden afectar el análisis de datos y las visualizaciones. Por ejemplo, si tienes una columna de un DataFrame que contiene valores faltantes, puede que no puedas calcular la media o la desviación estándar de esa columna sin manejar los valores faltantes primero.

Pandas proporciona varias herramientas para trabajar con datos perdidos en un DataFrame. Algunas de estas herramientas son:

- `isnull`: se utilizan para verificar si un valor es perdido o no.
- `fillna()`: se utiliza para reemplazar los valores faltantes con un valor especificado.
- `dropna()`: se utiliza para eliminar las filas o columnas que contienen valores faltantes de un DataFrame.
- `interpolate()`: Método que se utiliza para rellenar los valores faltantes de un DataFrame utilizando un método de interpolación.

Es importante tener en cuenta que en algunos casos, los datos perdidos pueden ser importantes y no deben ser eliminados o rellenados. En tales casos, puede ser necesario considerar cuidadosamente cómo manejar los valores faltantes y asegurarse de que cualquier análisis o visualización posterior los tenga en cuenta.

Pondremos en práctica estas funciones con el data set pinguins:

In [None]:
# Leer dataset
penguins = pd.read_excel('/content/penguins.xlsx', sheet_name='data', header=0)
penguins.info()

In [None]:
# Contar número de datos perdidos por columns
penguins.isnull().sum().plot(kind = 'bar', title = 'Datos perdidos en pinguins df')
plt.show()

In [None]:
# Tabla de frecuencia para sex
penguins.sex.value_counts(dropna = False)

In [None]:
# Rellenar datos perdidos con la palabra DESCONOCIDO
penguins.sex.fillna('DESCONOCIDO', inplace = True)
penguins.sex.value_counts(dropna = False)

In [None]:
# Desechar filas con datos perdidos
penguins.dropna()

In [None]:
# Rellenar valores perdidos numéricos 
penguins.interpolate('linear', inplace = True)

In [None]:
# Contar número de datos perdidos por columns
penguins.isnull().sum().plot(kind = 'bar', title = 'Datos perdidos en pinguins df')
plt.show()

### 11. Escritura de datos

Las funciones de escritura de pandas se utilizan para guardar los datos de un DataFrame en un archivo externo. Estas funciones permiten guardar los datos en varios formatos, como CSV, Excel, JSON, HTML y SQL, entre otros.

Las funciones de escritura más utilizadas son `to_csv()` y `to_excel()`, que permiten guardar los datos de un DataFrame en un archivo CSV o Excel, respectivamente.


#### `to_csv()`
Se utiliza para guardar los datos de un DataFrame en un archivo CSV (comma-separated values). Esta función tiene muchos argumentos que permiten personalizar el formato del archivo CSV, como el separador de campo, la codificación de caracteres y si se deben incluir o no los encabezados de columna.



In [None]:
# Escribir CSV
penguins.to_csv('/content/penguins_test.csv',index = False)

#### `to_excel()`

La función `to_excel()` se utiliza para guardar los datos de un DataFrame en un archivo Excel. Esta función tiene muchos argumentos que permiten personalizar el formato del archivo Excel, como el nombre de la hoja de cálculo, el formato de fecha, la codificación de caracteres y si se deben incluir o no los encabezados de columna.

Aquí hay un ejemplo de cómo utilizar la función to_excel():



In [None]:
artists.to_excel('/content/artists.xlsx', index = False)