# Pandas
## Primeros pasos

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Core components: `Series` y `DataFrame`
`Pandas` tiene dos objetos principales: `Series` y `DataFrame`.

Una `Series` es esencialmente una columna, y un `DataFrame` es una tabla compuesta de una colección de `Series`.

![](img/pandas_1.png)


## Crear un DataFrame desde cero
Hay más de una forma de crear un `DataFrame`, pero una opción rápida y sencilla es utilizando un diccionario para alimentar los datos.

Supongamos que somos dueños de un puesto de frutas. Queremos tener una columna para cada fruta y una fila para cada venta que le hacemos a un cliente.

In [None]:
data = {
    'manzanas' : [3,2,0,1],
    'naranjas' : [0,3,1,2],
    'kiwis' : [1,1,5,2]
}

Este diccionario lo vamos a usar para crear nuestro DataFrame. El método que crea el DataFrame a partir de un diccionario sabe que deberá tomar las **llaves** del diccionario como **columnas** y las **listas de valores** como las **filas**.

In [None]:
df = pd.DataFrame(data)
df

In [None]:
manzanas = df['manzanas']
manzanas

In [None]:
df.naranjas

In [None]:
list(df.naranjas)

---

# Análisis exporatorio

## Lectura de bases de datos
Sin duda, la manera que más común de crear DataFrames en Pandas es leyendo una base de datos de un archivo externo.

### Base de Datos de películas
Descargué una base de datos de películas de IMDb de Kaggle. [Ésta es la liga](https://www.kaggle.com/PromptCloudHQ/imdb-data) a la base de datos.


### Descripción

Here's a data set of 1,000 most popular movies on IMDB in the last 10 years. The data points included are:

Title, Genre, Description, Director, Actors, Year, Runtime, Rating, Votes, Revenue, Metascrore

Feel free to tinker with it and derive interesting insights.

---

Comencemos leyendo la base de datos con `read_csv()`

In [None]:
df = pd.read_csv('data/imdb.csv')

Leimos el archivo sin ningún problema. Ahora lo primero que nos gustaría hacer es ver las  primeras filas de nuestra tabla. Pandas nos permite inspeccionar las  primeras 5 filas utlizando el método `head()`.

**Nota: se utiliza el nombre de variable `df` para abreviar `DataFrame`** 

In [None]:
df.head()

Si quisieramos ver más filas, podemos pasar un número entero al método `head()` y nos mostrará el número de filas que especifiquemos. Mostremos las primeras diez filas usando `df.head(10)`

In [None]:
df.head(10)

Quiero saber el nombre de cada una de las columnas

In [None]:
df.columns

Es más fácil trabajar con nombres de columnas que no tengan espacios, por lo siguiente

In [None]:
df.Rank.head()

Cuando no tiene espacio, podemos usar la notación `dataframe.columna`, pero si tiene espacio, tenemos que poner los valores entre comillas y corchetes.

In [None]:
df.Revenue (Millions)

In [None]:
df['Revenue (Millions)'].head()

Para evitarnos problemas, lo que podemos hacer es renombrar las columnas

In [None]:
df = df.rename(columns = {'Revenue (Millions)':'Revenue_Millions'})
df = df.rename(columns = {'Runtime (Minutes)':'Runtime_Minutes'})
df.columns

In [None]:
df.head()

Aunque ver las primeras filas ya nos dice bastante acerca del conjunto de datos, es necesario poder obtener un resumen más amplio.

Para esto, podemos utilizar dos métodos:

- `DataFrame.info()`: Imprime un resumen conciso del dataframe incluyendo tipo de dato del índice, tipo de dato de cada columna, si hay o no valores nulos, tamaño en memoria del dataframe.
- `DataFrame.describe()`: Genera estadisticos básicos (descriptivos) del dataframe


In [None]:
df.info()

Este output nos informa lo siguiente:
- Tnemos un dataframe que tiene 1000 renglones con 12 columnas
- La variable **Rank** cuenta con 1000 valores enteros no nulos
- La variable **Title** cuenta con 1000 valores objeto no nulos
- La variable **Genre** cuenta con 1000 valores objeto no nulos
- $\vdots$
- La variable **Votes** cuenta con 1000 valores flotantes no nulos

Sin embargo, vemos que el número de **Revenue_Millions** y **Metascore** no es 1000


Si ejecutamos `DataFrame.Series.isna()`, nos va a regresar un `DataFrame` que contenga `True` si el valor en esa posición es `na` y `False` si no lo es. Por lo tanto, para probar si existe **por lo menos** un valor `na` podemos concatenar el método `any()` a `DataFrame.Series.isna()`. O sea  `DataFrame.Series.isna().any()`

Veamos esto paso por paso:

1.  `DataFrame.Series.isna()`

In [None]:
df.Revenue_Millions.isna()

Como podemos ver, hay varios valores en `True`. El problema con esto es que no podemos ver los 1000 valores al mismo tiempo porque pandas se salta la mayoría de las observaciones para no imprimir un output demasiado grande. En este caso, Pandas nos mostró las observaciones 0 a 29 y 970 a 999. Entonces tenemos muchos valores en medio que no estamos viendo. Es mejor entonces comprobar si existen o no `na` utilizando  `DataFrame.Series.isna().any()`

In [None]:
df.Revenue_Millions.isna().any()

Hagamos lo mismo para `Metascore`

In [None]:
df.Metascore.isna().any()

Ok, entonces tenemos valores `na` tanto en `Metascore` como en `Revenue_Millions`. ¿Pero cuántos?

In [None]:
print("Número total de NA en Metascore:", df.Metascore.isna().sum())
print("Número total de NA en Revenue Millions:", df.Revenue_Millions.isna().sum())

Es un gran inconveniente tener valores NA ya que éstos pueden estropear cálculos, visualizaciones, etc... Quitémoslos.

Dato que tener valores NA es un escenario bastante común y bastante indeseable, pandas facilita la eliminación de estos valores con el método `dropna()`

In [None]:
df = df.dropna()

Veamos info nuevamente

In [None]:
df.info()

Ya no tenemos ningún valor en nulo

In [None]:
df.describe()

In [None]:
plt.hist(df.Metascore,10)

In [None]:
df.info()

In [None]:
df.columns

In [None]:
df.info()

In [None]:
df.describe()

Vemos claramente que la media (mean) del Rating es de 6.81.

Calculemos esto por nuestra cuenta:

In [None]:
ratings = df.Rating

In [None]:
np.mean(ratings)

In [None]:
ratings.mean()

Quiero ver cuáles son los valores **unicos** de la variable `Rating`

In [None]:
df['Rating'].unique()

In [None]:
np.sort(df['Rating'].unique())

In [None]:
df[df.Rating == 9.]

In [None]:
rating_counts = pd.DataFrame({'rating' : df.Rating.value_counts().index, 'frequency' : df.Rating.value_counts().values})

In [None]:
rating_counts = rating_counts.sort_values(['rating'])
rating_counts

In [None]:
plt.bar(rating_counts.rating, rating_counts.frequency)

In [None]:
df.columns

In [None]:
df_corr = df[['Rank', 'Year', 'Runtime_Minutes', 'Rating', 'Votes', 'Revenue_Millions', 'Metascore']].corr()
df_corr


In [None]:
plt.matshow(df_corr)
plt.show()

In [None]:
f = plt.figure(figsize=(10, 7))
plt.matshow(df_corr, fignum=f.number)
plt.xticks(range(df_corr.shape[1]), df_corr.columns, fontsize=14, rotation=90)
plt.yticks(range(df_corr.shape[1]), df_corr.columns, fontsize=14)
cb = plt.colorbar()
cb.ax.tick_params(labelsize=14)
plt.show()