# IV.1. Primeros pasos con Pandas

En lecciones anteriores mencionamos que NumPy es un paquete esencial para ciencia de datos. No obstante, hay un paquete que utilizamos todav√≠a m√°s: Pandas.

La iron√≠a es que Pandas utiliza NumPy por detr√°s de las cortinas, entonces, al utilizas Pandas tambi√©n estamos utilizando NumPy. Muchas operaciones de las que aprendimos a hacer con NumPy las podremos hacer con Pandas tambi√©n.


---

# El objeto *core*

Como vimos, el objeto *core* o principal de NumPy es el `ndarray`. Pandas tiene su propio (o propios) objetos principales: `Series` y `DataFrame`.

## Definiciones formales

`Series`: Es una estructura de datos unidimensional que puede contener datos de cualquier tipo (entero, flotante, cadena, etc.). Es similar a un arreglo unidimensional o a una columna en una tabla de base de datos. **Cada elemento en una Serie tiene un √≠ndice que lo identifica.**

`DataFrame`: Es una estructura de datos bidimensional que se organiza en filas y columnas, similar a una tabla de una base de datos o una hoja de c√°lculo de Excel. Cada columna en un DataFrame es una Serie, y las filas y columnas est√°n etiquetadas con √≠ndices que permiten acceder y manipular los datos de manera eficiente.



> Una `Series` es esencialmente una columna, y un `DataFrame` es una tabla compuesta de una colecci√≥n de `Series`.

 ![Objetos principales de Pandas](./img/pandas_1.png)

# Importar paquete de Pandas

As√≠ como seguimos una convenci√≥n para importar NumPy con el alias `np`, haremos algo similar con Pandas

In [None]:
import pandas as pd

# Creaci√≥n de DataFrames

Hay m√°s de una forma de crear un DataFrame, pero una opci√≥n r√°pida y sencilla es utilizando un diccionario para alimentar los datos.

> Esperamos que cada vez sea m√°s evidente la importancia y necesidad de la clase de An√°lisis y Dise√±o de Algoritmos üò¨

![fruit](./img/fruit.gif)

Supongamos que somos due√±os de un puesto de frutas. Queremos tener una columna para cada fruta y una fila para cada venta que le hacemos a un cliente.

In [None]:
data = {
    'manzanas' : [3,2,0,1],
    'naranjas' : [0,3,1,2],
    'kiwis' :    [1,1,5,2]
}

Este diccionario lo vamos a usar para crear nuestro DataFrame. El m√©todo que crea el `DataFrame` a partir de un diccionario sabe que deber√° tomar las **llaves** del diccionario como **columnas** y las **listas de valores** como las **filas**.

In [None]:
df = pd.DataFrame(data)
df

In [None]:
manzanas = df['manzanas']
manzanas

Tambi√©n podemos acceder a una serie con la notaci√≥n `dataframe.series`

In [None]:
df.naranjas

Podemos convertir series a listas:

In [None]:
list(df.naranjas)

---

# An√°lisis exploratorio de datos

 ![eda](./img/eda.gif)


Una de las tareas m√°s comunes de ciencia de datos es el an√°lisis exploratorio de datos, es aqu√≠ donde utilizamos herramientas como Pandas para investigar y comprender mejor nuestros datos, identificando patrones, tendencias, y relaciones, as√≠ como detectando valores at√≠picos y datos faltantes.

## Lectura de datos

Sin duda, la manera que m√°s com√∫n de crear DataFrames en Pandas es leyendo una base de datos de un archivo externo.

En √∫ltima lecci√≥n de NumPy aprendimos a leer un archivo CSV a un ndarray, sin embargo, notamos algunas limitantes muy evidentes como el manejo de tipos de datos.


> Las series de Pandas son mucho m√°s flexibles en este sentido


Pandas est√° hecho para trabajar con datos tabulares, o sea, datos que vengan en una estructura de filas y columnas. Y, por excelencia, el tipo de archivo que cuenta con esta estructura es el CSV.

## Nuestros datos

Descarguemos una base de datos de pel√≠culas de IMDb de Kaggle. [√âsta es la liga](https://www.kaggle.com/PromptCloudHQ/imdb-data) a la base de datos. Kaggle es una excelente herramienta para encontrar bases de datos interesantes y aprender sobre ciencia de datos, inteligencia artificial, machine learning, etc.

Los datos ya est√°n en la carpeta `data/` de este repositorio.

### Descripci√≥n de la base de datos

La base de datos contiene las mil pel√≠culas m√°s populares en IMDb. Las columnas de la base son:

* Title
* Genre
* Description
* Director
* Actors
* Year
* Runtime
* Rating
* Votes
* Revenue
* Metascrore


> Pero mejor veamos todos los detalles usando Pandas

## `read_csv`

Comencemos leyendo la base de datos con `read_csv()`

In [None]:
df = pd.read_csv('data/imdb.csv')

> Se utiliza el nombre de variable `df` para abreviar ‚ÄúDataFrame‚Äù. Es muy com√∫n que nombremos as√≠ a la variable que contiene nuestro conjunto de datos (DataFrame) en nuestros proyectos. Pero esto es completamente opcional.


Leimos el archivo sin ning√∫n problema. Ahora lo primero que nos gustar√≠a hacer es ver las primeras filas de nuestra tabla. Pandas nos permite inspeccionar las primeras 5 filas utlizando el m√©todo `head()`.

In [None]:
df.head()

Si quisieramos ver m√°s filas, podemos pasar un n√∫mero entero al m√©todo `head()` y nos mostrar√° el n√∫mero de filas que especifiquemos. 

In [None]:
df.head(10)

O bien, podemos ver los **√∫ltimos** registros del DataFrame usando el m√©todo `tail`

In [None]:
df.tail(2)

## Columnas

Podemos explorar las columnas de nuestro DataFrame muy f√°cilmente:

In [None]:
df.columns

De igual manera, podemos inspeccionar columna por columna con los m√©todos `head` o `tail`.

In [None]:
df["Rank"].head()

> ¬°Atenci√≥n!

**Es m√°s f√°cil trabajar con nombres de columnas que no tengan espacios, por lo siguiente:**

Podemos acceder a los elementos de una columna espec√≠fica a trav√©s de su nombre 

In [None]:
df.Rank.head()

Cuando el nombre de la columna con la que deseamos trabajar **no tiene espacio**, podemos usar la notaci√≥n 

~~~
dataframe.columna
~~~


Pero si tiene espacio, tenemos que poner los valores entre comillas y corchetes. Intentemos hacerlo con la columna llamada `"Revenue (Millions)"`

In [None]:
df.Revenue (Millions)

Si el nombre de la columna tiene espaicios o caracteres especiales, debemos usar comillas. Espec√≠ficamente, utilizamos la notaci√≥n

```javascript
dataframe["nombre de la columna"]
```

O sea,

In [None]:
df['Revenue (Millions)'].head()

---

Muchas veces, lo primero que hacemos es limpiar los nombres de nuestras columnas para que sea m√°s f√°cil escribir c√≥digo. Cambiemos el nombre de esta columna:



In [None]:
df.rename(columns = {'Revenue (Millions)':'Revenue_Millions'})
df.columns

**Ah caray... üò®**

Renombramos la columna, pero al mostrar el DataFrame, vemos que la columna sigue teniendo el nombre pasado `"Revenue (Millions)"`.

 ![michae](./img/michaelscott.gif)

El problema aqu√≠ se debe a que el m√©todo rename de Pandas no modifica el DataFrame original a menos que se especifique expl√≠citamente. 


> Por defecto, rename devuelve un nuevo DataFrame con los cambios aplicados, pero no altera el DataFrame existente.


En el c√≥digo que escribimos, el DataFrame `df` no fue modificado directamente porque no se utiliz√≥ `inplace=True`. Por lo tanto, aunque la columna fue renombrada en el nuevo DataFrame retornado por rename, el DataFrame original df sigue teniendo el nombre de columna anterior.

Para que el cambio sea reflejado en el DataFrame original, podr√≠amos hacer dos cosas:

Usar `inplace=True`:

```python
df.rename(columns = {'Revenue (Millions)':'Revenue_Millions'}, inplace=True)
```

O bien, asignar el resultado de rename de nuevo a `df`:

```python
df = df.rename(columns = {'Revenue (Millions)':'Revenue_Millions'})
```


---

Renombremos entonces las columnas problem√°tica:

In [None]:
df = df.rename(columns = {'Revenue (Millions)':'Revenue_Millions'})
df = df.rename(columns = {'Runtime (Minutes)':'Runtime_Minutes'})
df.columns

## Descripci√≥n con Pandas

Aunque ver las primeras o √∫ltimas filas nos dice bastante acerca del conjunto de datos, es necesario poder obtener res√∫menes m√°s amplios o m√°s detallados.

Para esto, podemos utilizar dos m√©todos:

* `DataFrame.info()`: Imprime un resumen conciso del dataframe incluyendo tipo de dato del √≠ndice, tipo de dato de cada columna, si hay o no valores nulos, tama√±o en memoria del dataframe.
* `DataFrame.describe()`: Genera estadisticos b√°sicos (descriptivos) del dataframe.

### `df.info()`

In [None]:
df.info()

Este output nos informa lo siguiente:

* Tnemos un dataframe que tiene 1000 renglones con 12 columnas
* La variable **Rank** cuenta con 1000 valores enteros no nulos
* La variable **Title** cuenta con 1000 valores objeto no nulos
* La variable **Genre** cuenta con 1000 valores objeto no nulos
* ‚ãÆ
* La variable **Votes** cuenta con 1000 valores flotantes no nulos


> Sin embargo, vemos que el n√∫mero de **Revenue_Millions** y **Metascore** no es 1000

Si ejecutamos `DataFrame.Series.isna()`, nos va a regresar un `DataFrame` que contenga `True` si el valor en esa posici√≥n es `na` y `False` si no lo es. Por lo tanto, para probar si existe **por lo menos** un valor `na` podemos concatenar el m√©todo `any()` a `DataFrame.Series.isna()`. O sea  `DataFrame.Series.isna().any()`

Veamos esto paso por paso:


1. `DataFrame.Series.isna()`

In [None]:
df.Metascore.isna()

Como podemos ver, hay varios valores en `True`. El problema con esto es que no podemos ver los 1000 valores al mismo tiempo porque pandas se salta la mayor√≠a de las observaciones para no imprimir un output demasiado grande. En este caso, Juyter y Pandas nos mostran las observaciones 0 a 4 y 995 a 999. Entonces tenemos muchos valores en medio que no estamos viendo. Es mejor entonces comprobar si existen o no `na` utilizando  `DataFrame.Series.isna().any()`


In [None]:
df.Revenue_Millions.isna().any()

Hagamos lo mismo para `Metascore`

In [None]:
df.Metascore.isna().any()

Ok, entonces tenemos valores `na` tanto en `Metascore` como en `Revenue_Millions`.



> ¬øPero cu√°ntos?

In [None]:
print("N√∫mero total de NA en Metascore:", df.Metascore.isna().sum())
print("N√∫mero total de NA en Revenue Millions:", df.Revenue_Millions.isna().sum())

Es un gran inconveniente tener valores NA ya que √©stos pueden estropear c√°lculos, visualizaciones, etc... Quit√©moslos.

Dato que tener valores NA es un escenario bastante com√∫n y bastante indeseable, pandas facilita la eliminaci√≥n de estos valores con el m√©todo `dropna()`

In [None]:
df = df.dropna()

> Nota c√≥mo aqu√≠ tambi√©n volvimos a asignar a `df`



Veamos la info nuevamente

In [None]:
df.info()

**Ya no tenemos ning√∫n valor en nulo.**


### `df.describe()`

In [None]:
df.describe()

Vemos claramente que la media (mean) del Rating es de 6.81.

Calculemos esto por nuestra cuenta:

In [None]:
ratings = df.Rating
type(ratings)

**¬°Podemos usar Numpy!**

In [None]:
import numpy as np

In [None]:
np.mean(ratings)

O bien, podemos usar pandas tambi√©n

In [None]:
ratings.mean()

O tambi√©n

In [None]:
df.Rating.mean()

## Valores √∫nicos

> Quiero ver cu√°les son los valores **unicos** de la variable `Rating`

In [None]:
df['Rating'].unique()

Orden√©moslos usando NumPy

In [None]:
np.sort(df['Rating'].unique())

---

## Filtrado

Muchas veces vamos a querer ver datos con base en una condici√≥n



> As√≠ como si aplic√°ramos filtros en un Excel

In [None]:
df[df.Rating > 8].head(3)

Aunque no lo parezca, esto es exactamente lo mismo que hicimos en NumPy (indexaci√≥n l√≥gica o booleana). 

* `df.Rating > 8`
  * esta expresi√≥n es una condici√≥n booleana que verifica, para cada fila del DataFrame `df`, si el valor en la columna Rating es mayor que 8.
  * Como resultado, se genera una Serie de valores booleanos (True o False), donde cada valor corresponde a si la condici√≥n es verdadera o falsa para cada fila.
* `df[df.Rating > 8]`
  * Aqu√≠, el DataFrame `df` se est√° filtrando utilizando la condici√≥n booleana generada anteriormente.
  * El DataFrame resultante contendr√° solo las filas donde la condici√≥n `Rating > 8` es verdadera.


> Exactamente como en NumPy


---

## `value_counts()`

Conocer la frecuencia absoluta de nuestras variables es de gran utilidad porque nos permite visualizar la distribuci√≥n de nuestros datos. El m√©todo value_counts sirve exactamente para esto:

In [None]:
df.Rating.value_counts()

Este m√©todo nos returna un objeto de tipo Series en donde el √≠ndice (index) es la etiqueta de la variable en cuesti√≥n (Rating) y el valor es la frecuencia absoluta de la misma.

Es decir, el rating 7.0 aparece 43 veces; 6.7 aparece 42 veces; 7.1 aparece 40 veces, etc.

Juguemos un poco con esto. Creemos una variable para almacenar este Series:


In [None]:
counts = df.Rating.value_counts()

Veamos el tipo

In [None]:
type(counts)

Y veamos c√≥mo todo Series tiene dos propiedes: `index` y `values`

In [None]:
counts.index

In [None]:
counts.values

Creemos un nuevo dataframe haciendo uso de estas dos propiedades `counts`

In [None]:
counts_df = pd.DataFrame({'rating' : counts.index, 'frequency' : counts.values})
counts_df.head(3)

Genial, ahora asegur√©mosnos que est√©n ordenados de forma ascendente por frecuencia:

In [None]:
counts_df = counts_df.sort_values(['rating'])
counts_df.head(3)

Y ahora con esto, pasemos a crear una gr√°fica.

## Visualizaciones y gr√°ficas

Necesitamos un paquete adicional para poder crear gr√°ficas: `matplotlib`

In [None]:
import matplotlib.pyplot as plt

Matplotlib es la librer√≠a m√°s utilizada para crear gr√°ficas y visualizaciones con Python. Muchas veces se utiliza en conjunto con otro paquete llamado Seaborn, pero √©ste lo veremos m√°s adelante.


> La sintaxis y el uso de matplotlib no es lo m√°s trivial del mundo, sin embargo, siempre recuerda que ChatGPT es experto en esto y m√°s.

Crearemos nuestra primera gr√°fica utilizando el dataframe `counts_df` que acabamos de crear:

In [None]:
plt.bar(counts_df.rating, counts_df.frequency)

Lamentablemente nos hacen falta elementos visuales necesarios para comprender la gr√°fica: t√≠tulos, leyendas, etc.

> Pero todo esto lo aprenderemos m√°s adelante

---

Veamos ahora la distribuci√≥n de la variable Rating con un histograma. El argumento 10 indica que queremos 10 barras (cubetas o bins) en el histograma.

In [None]:
plt.hist(df.Rating,10)

Y ahora veamos Metscore con 20 cubetas

In [None]:
plt.hist(df.Metascore,20)

## Correlaci√≥n

Otra tarea √∫til y necesaria es encontrar variables que est√©n correlacionadas entre s√≠. Para esto, construiremos una matriz de correlaci√≥n, la cual nos pintar√° un mapa de calor con los valores de correlaci√≥n.

Primero crearemos un dataframe que contendr√° √∫nicamente las variables num√©ricas, y a partir de este, crearemos la matriz de correlaci√≥n utilizando el m√©todo `corr()`

Una forma f√°cil de crear un DataFrame a partir de otro es de la siguiente manera:

In [None]:
df[['Rank', 'Title']]

Esto nos dar√° un DataFrame subconjunto de `df` que contiene √∫nicamente las columnas `Rank` y `Title`

Utilizando esta misma sintaxis, creemos `df_corr`

In [None]:
df_corr = df[['Year', 'Runtime_Minutes', 'Rating', 'Votes', 'Revenue_Millions', 'Metascore']].corr()
df_corr

El m√©todo `.corr()` de Pandas se utiliza para calcular la matriz de correlaci√≥n entre las columnas de un DataFrame. La correlaci√≥n mide la relaci√≥n entre dos variables, indicando qu√© tan fuerte o d√©bil es la relaci√≥n entre ellas. El valor resultante oscila entre -1 y 1:

* 1 indica una correlaci√≥n positiva perfecta (cuando una variable aumenta, la otra tambi√©n lo hace de manera proporcional).
* -1 indica una correlaci√≥n negativa perfecta (cuando una variable aumenta, la otra disminuye de manera proporcional).
* 0 indica que no hay correlaci√≥n lineal entre las variables. Este m√©todo es √∫til para identificar relaciones entre diferentes variables en un conjunto de datos, lo que puede ser crucial para el an√°lisis exploratorio de datos y para seleccionar caracter√≠sticas en modelos predictivos.


---

Con este nuevo dataframe, podemos crear nuestro mapa de calor muy f√°cilmente:

In [None]:
plt.matshow(df_corr)
plt.show()

¬°Bien! Pero podemos mejorar un poco esta visualizaci√≥n. Para empezar, estar√≠a bien saber qu√© significa cada color. Adicionalmente, en lugar de poner los √≠ndices num√©ricos de las variables, ser√≠a mejor poner los nombres de las variables.


In [None]:
# Cambiar el tama√±o de la figura
f = plt.figure(figsize=(10, 7))

# Mostrar la matriz de correlaci√≥n
plt.matshow(df_corr, fignum=f.number)

# A√±adir las etiquetas de las variables
plt.xticks(range(df_corr.shape[1]), df_corr.columns, fontsize=14, rotation=90)
plt.yticks(range(df_corr.shape[1]), df_corr.columns, fontsize=14)

# A√±adir una leyenda de color
cb = plt.colorbar()
cb.ax.tick_params(labelsize=14)

# Mostrar el gr√°fico
plt.show()

# Seaborn

Matplotlib es una librer√≠a muy flexible y nos permite hacer muchas cosas. Sin embargo, su uso, y sobre todo su personalizaci√≥n, puede ser un poco complicado. Por suerte, existe una librer√≠a que se construy√≥ sobre `matplotlib` y que nos permite hacer visualizaciones m√°s atractivas y con menos c√≥digo. Esta librer√≠a se llama `seaborn`.

Seaborn ya viene instalado en este entorno virtual, pero si no lo tuvieran instalado, pueden hacerlo con el siguiente comando:

```bash
pip install seaborn
```

Y ahora importamos seaborn

In [None]:
import seaborn as sns

> Nota que importamos seaborn como `sns`. Esto es una convenci√≥n que se sigue en la comunidad de Python y que nos permite escribir menos c√≥digo.

---

Ya que tenemos seaborn, vamos a construir nuevamente la matriz de correlaci√≥n, pero ahora con seaborn. Para esto, utilizaremos el m√©todo `heatmap()` de seaborn. Le mandamos dos argumentos:

* `data`: el dataframe que contiene las variables num√©ricas
* `annot`: si queremos que se muestren los valores de correlaci√≥n en cada celda

In [None]:
sns.heatmap(df_corr, annot=True)

Agreguemos un t√≠tulo a esta gr√°fica:

In [None]:
sns.heatmap(df_corr, annot=True)
plt.title("Matriz de correlaci√≥n de pel√≠culas de IMDB")
plt.show()

> Sigamos jugando con Seaborn


Cambiemos la paleta de colores a `coolwarm` utilizando el argumento `cmap`

In [None]:
sns.heatmap(df_corr, annot=True, cmap='coolwarm')
plt.title("Matriz de correlaci√≥n de pel√≠culas de IMDB")
plt.show()

---

Ahora cambiemos la paleta de colores a `RdYlGn` utilizando el argumento `cmap`

In [None]:
sns.heatmap(df_corr, annot=True, cmap='RdYlGn')
plt.title("Matriz de correlaci√≥n de pel√≠culas de IMDB")
plt.show()