# IV.1. Primeros pasos con Pandas

En lecciones anteriores mencionamos que NumPy es un paquete esencial para ciencia de datos. No obstante, hay un paquete que utilizamos todavía más: Pandas.

La ironía es que Pandas utiliza NumPy por detrás de las cortinas, entonces, al utilizas Pandas también estamos utilizando NumPy. Muchas operaciones de las que aprendimos a hacer con NumPy las podremos hacer con Pandas también.


---

# El objeto *core*

Como vimos, el objeto *core* o principal de NumPy es el `ndarray`. Pandas tiene su propio (o propios) objetos principales: `Series` y `DataFrame`.

## Definiciones formales

`Series`: Es una estructura de datos unidimensional que puede contener datos de cualquier tipo (entero, flotante, cadena, etc.). Es similar a un arreglo unidimensional o a una columna en una tabla de base de datos. **Cada elemento en una Serie tiene un índice que lo identifica.**

`DataFrame`: Es una estructura de datos bidimensional que se organiza en filas y columnas, similar a una tabla de una base de datos o una hoja de cálculo de Excel. Cada columna en un DataFrame es una Serie, y las filas y columnas están etiquetadas con índices que permiten acceder y manipular los datos de manera eficiente.



> Una `Series` es esencialmente una columna, y un `DataFrame` es una tabla compuesta de una colección de `Series`.

 ![Objetos principales de Pandas](./img/pandas_1.png)

# Importar paquete de Pandas

Así como seguimos una convención para importar NumPy con el alias `np`, haremos algo similar con Pandas

In [1]:
import pandas as pd

# Creación de DataFrames

Hay más de una forma de crear un DataFrame, pero una opción rápida y sencilla es utilizando un diccionario para alimentar los datos.

> Esperamos que cada vez sea más evidente la importancia y necesidad de la clase de Análisis y Diseño de Algoritmos 😬

![fruit](./img/fruit.gif)

Supongamos que somos dueños de un puesto de frutas. Queremos tener una columna para cada fruta y una fila para cada venta que le hacemos a un cliente.

In [2]:
data = {
    'manzanas' : [3,2,0,1],
    'naranjas' : [0,3,1,2],
    'kiwis' :    [1,1,5,2]
}

Este diccionario lo vamos a usar para crear nuestro DataFrame. El método que crea el `DataFrame` a partir de un diccionario sabe que deberá tomar las **llaves** del diccionario como **columnas** y las **listas de valores** como las **filas**.

In [3]:
df = pd.DataFrame(data)
df

Unnamed: 0,manzanas,naranjas,kiwis
0,3,0,1
1,2,3,1
2,0,1,5
3,1,2,2


In [4]:
manzanas = df['manzanas']
manzanas

0    3
1    2
2    0
3    1
Name: manzanas, dtype: int64

También podemos acceder a una serie con la notación `dataframe.series`

In [5]:
df.naranjas

0    0
1    3
2    1
3    2
Name: naranjas, dtype: int64

Podemos convertir series a listas:

In [6]:
list(df.naranjas)

[0, 3, 1, 2]

---

# Análisis exploratorio de datos

 ![eda](./img/eda.gif)


Una de las tareas más comunes de ciencia de datos es el análisis exploratorio de datos, es aquí donde utilizamos herramientas como Pandas para investigar y comprender mejor nuestros datos, identificando patrones, tendencias, y relaciones, así como detectando valores atípicos y datos faltantes.

## Lectura de datos

Sin duda, la manera que más común de crear DataFrames en Pandas es leyendo una base de datos de un archivo externo.

En última lección de NumPy aprendimos a leer un archivo CSV a un ndarray, sin embargo, notamos algunas limitantes muy evidentes como el manejo de tipos de datos.


> Las series de Pandas son mucho más flexibles en este sentido


Pandas está hecho para trabajar con datos tabulares, o sea, datos que vengan en una estructura de filas y columnas. Y, por excelencia, el tipo de archivo que cuenta con esta estructura es el CSV.

## Nuestros datos

Descarguemos una base de datos de películas de IMDb de Kaggle. [Ésta es la liga](https://www.kaggle.com/PromptCloudHQ/imdb-data) a la base de datos. Kaggle es una excelente herramienta para encontrar bases de datos interesantes y aprender sobre ciencia de datos, inteligencia artificial, machine learning, etc.

Los datos ya están en la carpeta `data/` de este repositorio.

### Descripción de la base de datos

La base de datos contiene las mil películas más populares en IMDb. Las columnas de la base son:

* Title
* Genre
* Description
* Director
* Actors
* Year
* Runtime
* Rating
* Votes
* Revenue
* Metascrore


> Pero mejor veamos todos los detalles usando Pandas

## `read_csv`

Comencemos leyendo la base de datos con `read_csv()`

In [7]:
df = pd.read_csv('data/imdb.csv')

> Se utiliza el nombre de variable `df` para abreviar “DataFrame”. Es muy común que nombremos así a la variable que contiene nuestro conjunto de datos (DataFrame) en nuestros proyectos. Pero esto es completamente opcional.


Leimos el archivo sin ningún problema. Ahora lo primero que nos gustaría hacer es ver las primeras filas de nuestra tabla. Pandas nos permite inspeccionar las primeras 5 filas utlizando el método `head()`.

In [8]:
df.head()

Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,1,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,2,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,3,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,4,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,5,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


Si quisieramos ver más filas, podemos pasar un número entero al método `head()` y nos mostrará el número de filas que especifiquemos. 

In [9]:
df.head(10)

Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,1,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,2,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,3,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,4,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,5,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
5,6,The Great Wall,"Action,Adventure,Fantasy",European mercenaries searching for black powde...,Yimou Zhang,"Matt Damon, Tian Jing, Willem Dafoe, Andy Lau",2016,103,6.1,56036,45.13,42.0
6,7,La La Land,"Comedy,Drama,Music",A jazz pianist falls for an aspiring actress i...,Damien Chazelle,"Ryan Gosling, Emma Stone, Rosemarie DeWitt, J....",2016,128,8.3,258682,151.06,93.0
7,8,Mindhorn,Comedy,A has-been actor best known for playing the ti...,Sean Foley,"Essie Davis, Andrea Riseborough, Julian Barrat...",2016,89,6.4,2490,,71.0
8,9,The Lost City of Z,"Action,Adventure,Biography","A true-life drama, centering on British explor...",James Gray,"Charlie Hunnam, Robert Pattinson, Sienna Mille...",2016,141,7.1,7188,8.01,78.0
9,10,Passengers,"Adventure,Drama,Romance",A spacecraft traveling to a distant colony pla...,Morten Tyldum,"Jennifer Lawrence, Chris Pratt, Michael Sheen,...",2016,116,7.0,192177,100.01,41.0


O bien, podemos ver los **últimos** registros del DataFrame usando el método `tail`

In [10]:
df.tail(2)

Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
998,999,Search Party,"Adventure,Comedy",A pair of friends embark on a mission to reuni...,Scot Armstrong,"Adam Pally, T.J. Miller, Thomas Middleditch,Sh...",2014,93,5.6,4881,,22.0
999,1000,Nine Lives,"Comedy,Family,Fantasy",A stuffy businessman finds himself trapped ins...,Barry Sonnenfeld,"Kevin Spacey, Jennifer Garner, Robbie Amell,Ch...",2016,87,5.3,12435,19.64,11.0


## Columnas

Podemos explorar las columnas de nuestro DataFrame muy fácilmente:

In [11]:
df.columns

Index(['Rank', 'Title', 'Genre', 'Description', 'Director', 'Actors', 'Year',
       'Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)',
       'Metascore'],
      dtype='object')

De igual manera, podemos inspeccionar columna por columna con los métodos `head` o `tail`.

In [12]:
df["Rank"].head()

0    1
1    2
2    3
3    4
4    5
Name: Rank, dtype: int64

> ¡Atención!

**Es más fácil trabajar con nombres de columnas que no tengan espacios, por lo siguiente:**

Podemos acceder a los elementos de una columna específica a través de su nombre 

In [13]:
df.Rank.head()

0    1
1    2
2    3
3    4
4    5
Name: Rank, dtype: int64

Cuando el nombre de la columna con la que deseamos trabajar **no tiene espacio**, podemos usar la notación 

~~~
dataframe.columna
~~~


Pero si tiene espacio, tenemos que poner los valores entre comillas y corchetes. Intentemos hacerlo con la columna llamada `"Revenue (Millions)"`

In [14]:
df.Revenue (Millions)

AttributeError: 'DataFrame' object has no attribute 'Revenue'

Si el nombre de la columna tiene espaicios o caracteres especiales, debemos usar comillas. Específicamente, utilizamos la notación

```javascript
dataframe["nombre de la columna"]
```

O sea,

In [15]:
df['Revenue (Millions)'].head()

0    333.13
1    126.46
2    138.12
3    270.32
4    325.02
Name: Revenue (Millions), dtype: float64

---

Muchas veces, lo primero que hacemos es limpiar los nombres de nuestras columnas para que sea más fácil escribir código. Cambiemos el nombre de esta columna:



In [None]:
df.rename(columns = {'Revenue (Millions)':'Revenue_Millions'})
df.columns

**Ah caray... 😨**

Renombramos la columna, pero al mostrar el DataFrame, vemos que la columna sigue teniendo el nombre pasado `"Revenue (Millions)"`.

 ![michae](./img/michaelscott.gif)

El problema aquí se debe a que el método rename de Pandas no modifica el DataFrame original a menos que se especifique explícitamente. 


> Por defecto, rename devuelve un nuevo DataFrame con los cambios aplicados, pero no altera el DataFrame existente.


En el código que escribimos, el DataFrame `df` no fue modificado directamente porque no se utilizó `inplace=True`. Por lo tanto, aunque la columna fue renombrada en el nuevo DataFrame retornado por rename, el DataFrame original df sigue teniendo el nombre de columna anterior.

Para que el cambio sea reflejado en el DataFrame original, podríamos hacer dos cosas:

Usar `inplace=True`:

```python
df.rename(columns = {'Revenue (Millions)':'Revenue_Millions'}, inplace=True)
```

O bien, asignar el resultado de rename de nuevo a `df`:

```python
df = df.rename(columns = {'Revenue (Millions)':'Revenue_Millions'})
```


---

Renombremos entonces las columnas problemática:

In [None]:
df = df.rename(columns = {'Revenue (Millions)':'Revenue_Millions'})
df = df.rename(columns = {'Runtime (Minutes)':'Runtime_Minutes'})
df.columns

## Descripción con Pandas

Aunque ver las primeras o últimas filas nos dice bastante acerca del conjunto de datos, es necesario poder obtener resúmenes más amplios o más detallados.

Para esto, podemos utilizar dos métodos:

* `DataFrame.info()`: Imprime un resumen conciso del dataframe incluyendo tipo de dato del índice, tipo de dato de cada columna, si hay o no valores nulos, tamaño en memoria del dataframe.
* `DataFrame.describe()`: Genera estadisticos básicos (descriptivos) del dataframe.

### `df.info()`

In [None]:
df.info()

Este output nos informa lo siguiente:

* Tnemos un dataframe que tiene 1000 renglones con 12 columnas
* La variable **Rank** cuenta con 1000 valores enteros no nulos
* La variable **Title** cuenta con 1000 valores objeto no nulos
* La variable **Genre** cuenta con 1000 valores objeto no nulos
* ⋮
* La variable **Votes** cuenta con 1000 valores flotantes no nulos


> Sin embargo, vemos que el número de **Revenue_Millions** y **Metascore** no es 1000

Si ejecutamos `DataFrame.Series.isna()`, nos va a regresar un `DataFrame` que contenga `True` si el valor en esa posición es `na` y `False` si no lo es. Por lo tanto, para probar si existe **por lo menos** un valor `na` podemos concatenar el método `any()` a `DataFrame.Series.isna()`. O sea  `DataFrame.Series.isna().any()`

Veamos esto paso por paso:


1. `DataFrame.Series.isna()`

In [None]:
df.Metascore.isna()

Como podemos ver, hay varios valores en `True`. El problema con esto es que no podemos ver los 1000 valores al mismo tiempo porque pandas se salta la mayoría de las observaciones para no imprimir un output demasiado grande. En este caso, Juyter y Pandas nos mostran las observaciones 0 a 4 y 995 a 999. Entonces tenemos muchos valores en medio que no estamos viendo. Es mejor entonces comprobar si existen o no `na` utilizando  `DataFrame.Series.isna().any()`


In [None]:
df.Revenue_Millions.isna().any()

Hagamos lo mismo para `Metascore`

In [None]:
df.Metascore.isna().any()

Ok, entonces tenemos valores `na` tanto en `Metascore` como en `Revenue_Millions`.



> ¿Pero cuántos?

In [None]:
print("Número total de NA en Metascore:", df.Metascore.isna().sum())
print("Número total de NA en Revenue Millions:", df.Revenue_Millions.isna().sum())

Es un gran inconveniente tener valores NA ya que éstos pueden estropear cálculos, visualizaciones, etc... Quitémoslos.

Dato que tener valores NA es un escenario bastante común y bastante indeseable, pandas facilita la eliminación de estos valores con el método `dropna()`

In [None]:
df = df.dropna()

> Nota cómo aquí también volvimos a asignar a `df`



Veamos la info nuevamente

In [None]:
df.info()

**Ya no tenemos ningún valor en nulo.**


### `df.describe()`

In [None]:
df.describe()

Vemos claramente que la media (mean) del Rating es de 6.81.

Calculemos esto por nuestra cuenta:

In [None]:
ratings = df.Rating
type(ratings)

**¡Podemos usar Numpy!**

In [None]:
import numpy as np

In [None]:
np.mean(ratings)

O bien, podemos usar pandas también

In [None]:
ratings.mean()

O también

In [None]:
df.Rating.mean()

## Valores únicos

> Quiero ver cuáles son los valores **unicos** de la variable `Rating`

In [None]:
df['Rating'].unique()

Ordenémoslos usando NumPy

In [None]:
np.sort(df['Rating'].unique())

---

## Filtrado

Muchas veces vamos a querer ver datos con base en una condición



> Así como si aplicáramos filtros en un Excel

In [None]:
df[df.Rating > 8].head(3)

Aunque no lo parezca, esto es exactamente lo mismo que hicimos en NumPy (indexación lógica o booleana). 

* `df.Rating > 8`
  * esta expresión es una condición booleana que verifica, para cada fila del DataFrame `df`, si el valor en la columna Rating es mayor que 8.
  * Como resultado, se genera una Serie de valores booleanos (True o False), donde cada valor corresponde a si la condición es verdadera o falsa para cada fila.
* `df[df.Rating > 8]`
  * Aquí, el DataFrame `df` se está filtrando utilizando la condición booleana generada anteriormente.
  * El DataFrame resultante contendrá solo las filas donde la condición `Rating > 8` es verdadera.


> Exactamente como en NumPy


---

## `value_counts()`

Conocer la frecuencia absoluta de nuestras variables es de gran utilidad porque nos permite visualizar la distribución de nuestros datos. El método value_counts sirve exactamente para esto:

In [None]:
df.Rating.value_counts()

Este método nos returna un objeto de tipo Series en donde el índice (index) es la etiqueta de la variable en cuestión (Rating) y el valor es la frecuencia absoluta de la misma.

Es decir, el rating 7.0 aparece 43 veces; 6.7 aparece 42 veces; 7.1 aparece 40 veces, etc.

Juguemos un poco con esto. Creemos una variable para almacenar este Series:


In [None]:
counts = df.Rating.value_counts()

Veamos el tipo

In [None]:
type(counts)

Y veamos cómo todo Series tiene dos propiedes: `index` y `values`

In [None]:
counts.index

In [None]:
counts.values

Creemos un nuevo dataframe haciendo uso de estas dos propiedades `counts`

In [None]:
counts_df = pd.DataFrame({'rating' : counts.index, 'frequency' : counts.values})
counts_df.head(3)

Genial, ahora asegurémosnos que estén ordenados de forma ascendente por frecuencia:

In [None]:
counts_df = counts_df.sort_values(['rating'])
counts_df.head(3)

Y ahora con esto, pasemos a crear una gráfica.

## Visualizaciones y gráficas

Necesitamos un paquete adicional para poder crear gráficas: `matplotlib`

In [None]:
import matplotlib.pyplot as plt

Matplotlib es la librería más utilizada para crear gráficas y visualizaciones con Python. Muchas veces se utiliza en conjunto con otro paquete llamado Seaborn, pero éste lo veremos más adelante.


> La sintaxis y el uso de matplotlib no es lo más trivial del mundo, sin embargo, siempre recuerda que ChatGPT es experto en esto y más.

Crearemos nuestra primera gráfica utilizando el dataframe `counts_df` que acabamos de crear:

In [None]:
plt.bar(counts_df.rating, counts_df.frequency)

Lamentablemente nos hacen falta elementos visuales necesarios para comprender la gráfica: títulos, leyendas, etc.

> Pero todo esto lo aprenderemos más adelante

---

Veamos ahora la distribución de la variable Rating con un histograma. El argumento 10 indica que queremos 10 barras (cubetas o bins) en el histograma.

In [None]:
plt.hist(df.Rating,10)

Y ahora veamos Metscore con 20 cubetas

In [None]:
plt.hist(df.Metascore,20)

## Correlación

Otra tarea útil y necesaria es encontrar variables que estén correlacionadas entre sí. Para esto, construiremos una matriz de correlación, la cual nos pintará un mapa de calor con los valores de correlación.

Primero crearemos un dataframe que contendrá únicamente las variables numéricas, y a partir de este, crearemos la matriz de correlación utilizando el método `corr()`

Una forma fácil de crear un DataFrame a partir de otro es de la siguiente manera:

In [None]:
df[['Rank', 'Title']]

Esto nos dará un DataFrame subconjunto de `df` que contiene únicamente las columnas `Rank` y `Title`

Utilizando esta misma sintaxis, creemos `df_corr`

In [None]:
df_corr = df[['Year', 'Runtime_Minutes', 'Rating', 'Votes', 'Revenue_Millions', 'Metascore']].corr()
df_corr

El método `.corr()` de Pandas se utiliza para calcular la matriz de correlación entre las columnas de un DataFrame. La correlación mide la relación entre dos variables, indicando qué tan fuerte o débil es la relación entre ellas. El valor resultante oscila entre -1 y 1:

* 1 indica una correlación positiva perfecta (cuando una variable aumenta, la otra también lo hace de manera proporcional).
* -1 indica una correlación negativa perfecta (cuando una variable aumenta, la otra disminuye de manera proporcional).
* 0 indica que no hay correlación lineal entre las variables. Este método es útil para identificar relaciones entre diferentes variables en un conjunto de datos, lo que puede ser crucial para el análisis exploratorio de datos y para seleccionar características en modelos predictivos.


---

Con este nuevo dataframe, podemos crear nuestro mapa de calor muy fácilmente:

In [None]:
plt.matshow(df_corr)
plt.show()

¡Bien! Pero podemos mejorar un poco esta visualización. Para empezar, estaría bien saber qué significa cada color. Adicionalmente, en lugar de poner los índices numéricos de las variables, sería mejor poner los nombres de las variables.


In [None]:
# Cambiar el tamaño de la figura
f = plt.figure(figsize=(10, 7))

# Mostrar la matriz de correlación
plt.matshow(df_corr, fignum=f.number)

# Añadir las etiquetas de las variables
plt.xticks(range(df_corr.shape[1]), df_corr.columns, fontsize=14, rotation=90)
plt.yticks(range(df_corr.shape[1]), df_corr.columns, fontsize=14)

# Añadir una leyenda de color
cb = plt.colorbar()
cb.ax.tick_params(labelsize=14)

# Mostrar el gráfico
plt.show()

# Seaborn

Matplotlib es una librería muy flexible y nos permite hacer muchas cosas. Sin embargo, su uso, y sobre todo su personalización, puede ser un poco complicado. Por suerte, existe una librería que se construyó sobre `matplotlib` y que nos permite hacer visualizaciones más atractivas y con menos código. Esta librería se llama `seaborn`.

Seaborn ya viene instalado en este entorno virtual, pero si no lo tuvieran instalado, pueden hacerlo con el siguiente comando:

```bash
pip install seaborn
```

Y ahora importamos seaborn

In [None]:
import seaborn as sns

> Nota que importamos seaborn como `sns`. Esto es una convención que se sigue en la comunidad de Python y que nos permite escribir menos código.

---

Ya que tenemos seaborn, vamos a construir nuevamente la matriz de correlación, pero ahora con seaborn. Para esto, utilizaremos el método `heatmap()` de seaborn. Le mandamos dos argumentos:

* `data`: el dataframe que contiene las variables numéricas
* `annot`: si queremos que se muestren los valores de correlación en cada celda

In [None]:
sns.heatmap(df_corr, annot=True)

Agreguemos un título a esta gráfica:

In [None]:
sns.heatmap(df_corr, annot=True)
plt.title("Matriz de correlación de películas de IMDB")
plt.show()

> Sigamos jugando con Seaborn


Cambiemos la paleta de colores a `coolwarm` utilizando el argumento `cmap`

In [None]:
sns.heatmap(df_corr, annot=True, cmap='coolwarm')
plt.title("Matriz de correlación de películas de IMDB")
plt.show()

---

Ahora cambiemos la paleta de colores a `RdYlGn` utilizando el argumento `cmap`

In [None]:
sns.heatmap(df_corr, annot=True, cmap='RdYlGn')
plt.title("Matriz de correlación de películas de IMDB")
plt.show()