# Introducción a Pandas
Pandas es la librería básica para gestión y descripción de datos bajo Python. Esta librería usa como base la librería
numpy y los narray para mantener los datos, por lo que trasbasar datos de una librería a otra es bastante fácil.

Estos jupyters notebooks están basados en el libro Pandas Cookbook y el código se puede descargar de
[https://github.com/PacktPublishing/Pandas-Cookbook](https://github.com/PacktPublishing/Pandas-Cookbook)

Las siguientes librerías se utilizarán a lo largo de todos los notebooks.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

El primer proceso que deberemos hacer es cargar los datos en memoria, para ese fin se utiliza la función **read_csv**,
lo sufientemente versatil como para tratar diferentes tipos de csv.

In [2]:
movies = pd.read_csv('data/movie.csv')

## Anatomía de un dataframe
Todo Dataframe se compone de columnas (colums) y filas (index), se accede por el nombre de la
columna o por el número (índice) de la fila. Estas dos dimensiones se establecen enmuchas funciones a través del
parámetro axis, en el que axis=0 indicará que se trabaja por filas y axis=1 que se trabaje por columnas.

La función **head** muestra las cinco primeras filas de los datos, mientras que **tail** hace lo mismo pero del
final.

In [3]:
movies.head()

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,7.1,,0


In [4]:
movies.tail()

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
4911,Color,Scott Smith,1.0,87.0,2.0,318.0,Daphne Zuniga,637.0,,Comedy|Drama,...,6.0,English,Canada,,,2013.0,470.0,7.7,,84
4912,Color,,43.0,43.0,,319.0,Valorie Curry,841.0,,Crime|Drama|Mystery|Thriller,...,359.0,English,USA,TV-14,,,593.0,7.5,16.0,32000
4913,Color,Benjamin Roberds,13.0,76.0,0.0,0.0,Maxwell Moody,0.0,,Drama|Horror|Thriller,...,3.0,English,USA,,1400.0,2013.0,0.0,6.3,,16
4914,Color,Daniel Hsia,14.0,100.0,0.0,489.0,Daniel Henney,946.0,10443.0,Comedy|Drama|Romance,...,9.0,English,USA,PG-13,,2012.0,719.0,6.3,2.35,660
4915,Color,Jon Gunn,43.0,90.0,16.0,16.0,Brian Herzlinger,86.0,85222.0,Documentary,...,84.0,English,USA,PG,1100.0,2004.0,23.0,6.6,1.85,456


## Anatomía de los datos

Un DataSet está formado por una o varias columnas, en la terminología de Pandas, una Serie. La Serie tiene un
conjunto de propiedades que debemos tener en cuenta:
- El tipo de dato de toda la serie debe ser la misma.

### Datos no existentes
Las Series deben tener un tipo asignado, este tipo se puede cambiar implicando las conversiones necesarias entre los
diversos tipos.

Por otro lado, cuando trabajamos con datos, no siempre son todo lo correctos que desearíamos: Uno de los problemas
iniciales es la falta de datos. Cuando se recopilan los datos, las fuentes pueden fallar, pueden
recoger datos erróneos, o cualquier otro tipo de problema. Esto hará que en nuestros Dataset aparezcan marcados
como **NaN**.

In [5]:
movies["color"][4]

nan

### Tipos de datos
Cada Serie en Pandas debe tener un único tipo (dtype). Entre los tipos aceptados encontramos: np.bool, np.int,
np.flaot, np.complex, np.object, np.datetime64 o pd.Timestamp o pd.Categorical entre otros.

Para determinar el tipo de cada Serie en un Dataframe utilizaremos el atributo **dtypes** y para contabilizar el
número de columnas de cada tipo será **value_counts**

In [6]:
movies.dtypes
movies.dtypes.value_counts()

float64    13
object     12
int64       3
dtype: int64

## Descripción de los datos
El Dataframe tiene las propiedades **index**, **columns** y **values** para acceder al listasdo de índices (filas),
de columnas y a los valores respectivamente.

In [7]:
movies.index
movies.index.values

array([   0,    1,    2, ..., 4913, 4914, 4915], dtype=int64)

In [8]:
movies.columns


Index(['color', 'director_name', 'num_critic_for_reviews', 'duration',
       'director_facebook_likes', 'actor_3_facebook_likes', 'actor_2_name',
       'actor_1_facebook_likes', 'gross', 'genres', 'actor_1_name',
       'movie_title', 'num_voted_users', 'cast_total_facebook_likes',
       'actor_3_name', 'facenumber_in_poster', 'plot_keywords',
       'movie_imdb_link', 'num_user_for_reviews', 'language', 'country',
       'content_rating', 'budget', 'title_year', 'actor_2_facebook_likes',
       'imdb_score', 'aspect_ratio', 'movie_facebook_likes'],
      dtype='object')

In [9]:
movies.values

array([['Color', 'James Cameron', 723.0, ..., 7.9, 1.78, 33000],
       ['Color', 'Gore Verbinski', 302.0, ..., 7.1, 2.35, 0],
       ['Color', 'Sam Mendes', 602.0, ..., 6.8, 2.35, 85000],
       ...,
       ['Color', 'Benjamin Roberds', 13.0, ..., 6.3, nan, 16],
       ['Color', 'Daniel Hsia', 14.0, ..., 6.3, 2.35, 660],
       ['Color', 'Jon Gunn', 43.0, ..., 6.6, 1.85, 456]], dtype=object)

# Selección de datos
## Selección de una columna
Para acceder a una única columna (Serie) se puede hacer bien mediante notación de punto o por notación corchetes. Pero
hay que tener en cuenta que se recomienda utilizar la notación de corchetes, ya que permite el acceso columnas con
nombres con espacios.

In [10]:
movies["duration"]

0       178.0
1       169.0
2       148.0
3       164.0
4         NaN
        ...  
4911     87.0
4912     43.0
4913     76.0
4914    100.0
4915     90.0
Name: duration, Length: 4916, dtype: float64

In [11]:
movies.director_name

0           James Cameron
1          Gore Verbinski
2              Sam Mendes
3       Christopher Nolan
4             Doug Walker
              ...        
4911          Scott Smith
4912                  NaN
4913     Benjamin Roberds
4914          Daniel Hsia
4915             Jon Gunn
Name: director_name, Length: 4916, dtype: object

## Mostrar los primeros datos
Las funciones **head** y **tail** ya vistas muestran las primeras o últimas filas del dataset, pero si las utilizamos sobre
una columna, se restringirá la salida a dicha característica.

In [12]:
movies["duration"].head()

0    178.0
1    169.0
2    148.0
3    164.0
4      NaN
Name: duration, dtype: float64

## Descripción de los datos
La función **value_counts** contabiliza el número de apariciones de cada valor, se puede usar tanto
para el Dataset completo como para una única columna

In [13]:
movies["director_name"].value_counts()

Steven Spielberg    26
Woody Allen         22
Martin Scorsese     20
Clint Eastwood      20
Ridley Scott        16
                    ..
Michael Meredith     1
Khyentse Norbu       1
Nicholas Fackler     1
Phil Claydon         1
Jorge Blanco         1
Name: director_name, Length: 2397, dtype: int64

Para acceder al tamaño de un dataset se pueden usar diferentes técnicas: **size**, **shape** o la función
**len** de Python. Todas se pueden usar tanto en el Dataset completo como en una Serie.

In [14]:
movies.shape

(4916, 28)

In [15]:
movies["director_name"].size

4916

In [16]:
len(movies["director_name"])

4916

Por último existe la función **count** que devuelve el número de valores no nulos de la serie. Esta función es
primordial para el tratamiento de datos en el ML, es el primer paso para determinar qué hacer con los valores nulos

In [17]:
movies.count()


color                        4897
director_name                4814
num_critic_for_reviews       4867
duration                     4901
director_facebook_likes      4814
actor_3_facebook_likes       4893
actor_2_name                 4903
actor_1_facebook_likes       4909
gross                        4054
genres                       4916
actor_1_name                 4909
movie_title                  4916
num_voted_users              4916
cast_total_facebook_likes    4916
actor_3_name                 4893
facenumber_in_poster         4903
plot_keywords                4764
movie_imdb_link              4916
num_user_for_reviews         4895
language                     4904
country                      4911
content_rating               4616
budget                       4432
title_year                   4810
actor_2_facebook_likes       4903
imdb_score                   4916
aspect_ratio                 4590
movie_facebook_likes         4916
dtype: int64

Si las funciones anteriores describían la forma de los datos, la función **describe** hace una caracterízación de los
datos de forma estadística, mostrando medias, desviaciones, máximo, mínimo, etc... Pero los datos que muestra son
diferentes si se utiliza sobre todo el Dataset o sobre una característica en concreto

In [18]:
movies.describe()

Unnamed: 0,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_1_facebook_likes,gross,num_voted_users,cast_total_facebook_likes,facenumber_in_poster,num_user_for_reviews,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
count,4867.0,4901.0,4814.0,4893.0,4909.0,4054.0,4916.0,4916.0,4903.0,4895.0,4432.0,4810.0,4903.0,4916.0,4590.0,4916.0
mean,137.988905,107.090798,691.014541,631.276313,6494.488491,47644510.0,82644.92,9579.815907,1.37732,267.668846,36547490.0,2002.447609,1621.923516,6.437429,2.222349,7348.294142
std,120.239379,25.286015,2832.954125,1625.874802,15106.986884,67372550.0,138322.2,18164.31699,2.023826,372.934839,100242700.0,12.453977,4011.299523,1.127802,1.40294,19206.016458
min,1.0,7.0,0.0,0.0,0.0,162.0,5.0,0.0,0.0,1.0,218.0,1916.0,0.0,1.6,1.18,0.0
25%,49.0,93.0,7.0,132.0,607.0,5019656.0,8361.75,1394.75,0.0,64.0,6000000.0,1999.0,277.0,5.8,1.85,0.0
50%,108.0,103.0,48.0,366.0,982.0,25043960.0,33132.5,3049.0,1.0,153.0,19850000.0,2005.0,593.0,6.6,2.35,159.0
75%,191.0,118.0,189.75,633.0,11000.0,61108410.0,93772.75,13616.75,2.0,320.5,43000000.0,2011.0,912.0,7.2,2.35,2000.0
max,813.0,511.0,23000.0,23000.0,640000.0,760505800.0,1689764.0,656730.0,43.0,5060.0,4200000000.0,2016.0,137000.0,9.5,16.0,349000.0


In [19]:
movies["director_name"].describe()


count                 4814
unique                2397
top       Steven Spielberg
freq                    26
Name: director_name, dtype: object

## Tratamiento de los datos nulos
Los datos nulos son problemáticos en todos los dataset y hay que hacer un estudio detallado de los mismos. En principio
lo que nos dicta la razón es eliminarlos del conjunto total, pero puede implicar que desaparezcan otros datos
importantes. Por tanto, lo que se tiene que hacer es estudiar de forma minuciosa estos datos y tomar una decisión de
qué hacer con ellos (**isnull** devolverá un array indicando los índices que son nulos).
Una vez tomada la decisión esta puede ser:
- Rellenar con algún valor: **fillna**
- Borrarlos: **dropna**

In [20]:
movies["director_name"].dropna().size

4814

Hay que tener en cuenta que estos métodos no modifican el dataset original, devuelven uno modificado a menos que
se establezca a True el parámetro *inplace* que modificará el original.

In [21]:
movies["director_name"].size

4916

In [22]:
movies["director_name"].fillna("-", inplace=True)

In [23]:
movies

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,7.1,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4911,Color,Scott Smith,1.0,87.0,2.0,318.0,Daphne Zuniga,637.0,,Comedy|Drama,...,6.0,English,Canada,,,2013.0,470.0,7.7,,84
4912,Color,-,43.0,43.0,,319.0,Valorie Curry,841.0,,Crime|Drama|Mystery|Thriller,...,359.0,English,USA,TV-14,,,593.0,7.5,16.00,32000
4913,Color,Benjamin Roberds,13.0,76.0,0.0,0.0,Maxwell Moody,0.0,,Drama|Horror|Thriller,...,3.0,English,USA,,1400.0,2013.0,0.0,6.3,,16
4914,Color,Daniel Hsia,14.0,100.0,0.0,489.0,Daniel Henney,946.0,10443.0,Comedy|Drama|Romance,...,9.0,English,USA,PG-13,,2012.0,719.0,6.3,2.35,660


## Trabajando con operadores en Series

Se puede realizar operaciones simples con las Series directamente, el resultado será el de aplicar la operación a cada uno
de los elementos de la Serie.

In [24]:
movies["imdb_score"]

0       7.9
1       7.1
2       6.8
3       8.5
4       7.1
       ... 
4911    7.7
4912    7.5
4913    6.3
4914    6.3
4915    6.6
Name: imdb_score, Length: 4916, dtype: float64

In [25]:
movies["imdb_score"] = movies["imdb_score"] * 2
movies["imdb_score"]

0       15.8
1       14.2
2       13.6
3       17.0
4       14.2
        ... 
4911    15.4
4912    15.0
4913    12.6
4914    12.6
4915    13.2
Name: imdb_score, Length: 4916, dtype: float64

También se pueden realizar operaciones de comparación, resultando un array con booleanos que indicará el resultado
de hacer la operación de comparación con cada uno de los elementos.

In [26]:
movies["imdb_score"] > 15

0        True
1       False
2       False
3        True
4       False
        ...  
4911     True
4912    False
4913    False
4914    False
4915    False
Name: imdb_score, Length: 4916, dtype: bool

## Renombrado de filas y columnas
Se puede cambiar el nombre de cualquier fila o columna por la cadena que deseemos utilizando el método **rename**. Se
utilizará el parámetro **index** para cambiar las filas y **columns** para renombrar las columnas.

In [27]:
movies.rename(index={0:'Cero'}, columns={'color':'Color de muestra'}).head()

Unnamed: 0,Color de muestra,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
Cero,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,15.8,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,14.2,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,13.6,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,17.0,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,14.2,,0


## Creación y borrado de características

En Pandas, la creación de nuevas características es muy fácil, simplemente utilizaremos el Dataset con el nuevo nombre
de la columna y asignándole el valor calculado deseado.

In [28]:
movies["Nueva Columna"] = movies["actor_1_facebook_likes"] + movies['actor_2_facebook_likes']
movies.head()

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes,Nueva Columna
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,English,USA,PG-13,237000000.0,2009.0,936.0,15.8,1.78,33000,1936.0
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,English,USA,PG-13,300000000.0,2007.0,5000.0,14.2,2.35,0,45000.0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,English,UK,PG-13,245000000.0,2015.0,393.0,13.6,2.35,85000,11393.0
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,English,USA,PG-13,250000000.0,2012.0,23000.0,17.0,2.35,164000,50000.0
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,12.0,14.2,,0,143.0


El borrado de una característica (columna) es igual de fácil, usando **del** con la columna correspondiente.


In [29]:
del movies["Nueva Columna"]
movies.head()


Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,15.8,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,14.2,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,13.6,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,17.0,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,14.2,,0
