# Pandas Tutorial

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" width="30%">

In [1]:
import pandas as pd

## Series y DataFrames

Los dos elementos principales de pandas son las `Series` y los `DataFrame`.

Una `Series` es básicamente una columna y un `DataFrame` es una tabla multidimensional compuesta de una colección de `Series`.

<img src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png" width=600px />



### Creando DataFrames desde cero

Se puede crear a partir de un simple `diccionario`.

En el ejemplo tenemos un puesto de frutas que vende manzanas y naranjas. Queremos una columna por cada fruta y una fila por cada compra de un cliente.


In [2]:
data = {
    'apples': [3, 2, 0, 1],
    'oranges': [0, 3, 7, 2],
    'propina': ['si', 'no', 'si', 'si']
}

In [3]:
purchases = pd.DataFrame(data)

purchases

Unnamed: 0,apples,oranges,propina
0,3,0,si
1,2,3,no
2,0,7,si
3,1,2,si


El **Indice** de este DataFrame se creó automaticamente al iniciarlo, usando los números0-3, pero podemos asignar los que queramos.

Los nombres de los clientes serán los índices

In [4]:
purchases = pd.DataFrame(data, index=['June', 'Robert', 'Lily', 'David'])

purchases

Unnamed: 0,apples,oranges,propina
June,3,0,si
Robert,2,3,no
Lily,0,7,si
David,1,2,si


Ahora podemos buscar el pedido de un cliente usando su nombre:

In [5]:
purchases.loc['June']

apples      3
oranges     0
propina    si
Name: June, dtype: object

In [None]:
purchases.iloc[0]

También podemos acceder por columnas

In [None]:
purchases['oranges']

También se puede acceder como si fuese un atributo (si el nombre es sencillo).

In [None]:
purchases.oranges

Pero el formato usando índices es más flexible.

In [None]:
purchases[['oranges','propina']]

### Leyendo datos desde un CSV


In [None]:
df = pd.read_csv('purchases.csv')

df.head()

Al leer podemos elegir qué columna es el `index_col`:

In [None]:
df = pd.read_csv('purchases.csv', index_col=0)

df

## Operaciones principales con DataFrame

Vamos a cargar la lista de películas IMDB:

In [None]:
movies_df = pd.read_csv("IMDB-Movie-Data.csv", index_col="Title")

### Visualizando tus datos

Imprimimos unas pocas filas con `.head()`:

In [None]:
movies_df.head()

`.head()` muesatra las primeras **cinco** filas por defecto, pero se puede especificar otro número `movies_df.head(10)`.

Para ver las últimas **filas** usamos `.tail()`.

In [None]:
movies_df.tail(2)

### Obteniendo información de tus datos

`.info()` debería ser uno de tus primeros métodos después de cargar tus datos

In [None]:
movies_df.info()

In [None]:
movies_df.shape

### Cambiar los nombres de las columnas



In [None]:
movies_df.columns

In [None]:
movies_df['Runtime (Minutes)']

In [None]:
movies_df.rename(columns={
        'Runtime (Minutes)': 'Runtime',
        'Revenue (Millions)': 'Revenue_millions'
    }, inplace=True)


movies_df.columns

In [None]:
movies_df.Runtime

In [None]:
movies_df.head()

Otra opción, queremos todos los nombres de las columnas en minúscula. En lugar de `.rename()`:

In [None]:
movies_df.columns = ['rank', 'genre', 'description', 'director', 'actors', 'year', 'runtime',
                     'rating', 'votes', 'revenue_millions', 'metascore']


movies_df.columns

But that's too much work. Instead of just renaming each column manually we can do a list comprehension:

In [None]:
movies_df.columns = [col.lower() for col in movies_df]

movies_df.columns

### Comprendiendo tus variables

Usando `describe()` obtenemos un resumen de la distribuación de todas las variables continuas:

In [None]:
movies_df.describe()



`.describe()` se puede usar también con variables categóricas

In [None]:
movies_df['genre'].describe()

In [None]:
movies_df['genre'].value_counts().head(10)

#### Correlación entre variables continuas

Usando el comando `.corr()`:

In [None]:
movies_df.corr(numeric_only=True)

### DataFrame: slicing, seleccionar y extraer



#### Por columna


In [None]:
genre_col = movies_df['genre']

type(genre_col)

In [None]:
genre_col = movies_df[['genre']]

type(genre_col)

In [None]:
subset = movies_df[['genre', 'rating']]

subset.head()

#### Por filas



- `.loc` - busca por nombre
- `.iloc`- busca por índice



In [None]:
prom = movies_df.loc["Guardians of the Galaxy"]

prom

In [None]:
prom = movies_df.iloc[0]
prom

In [None]:
movie_subset = movies_df.loc['Prometheus':'Sing']

movie_subset = movies_df.iloc[1:4]

movie_subset



#### Selección condicional


In [None]:
condition = (movies_df.director == "Ridley Scott")

condition.head()

In [None]:
movies_df[condition]

In [None]:
movies_df[movies_df.index == 'Alien']

In [None]:
movies_df[movies_df['director'] == "Ridley Scott"].head()

In [None]:
movies_df[movies_df['rating'] < 4].sort_values('rating', ascending=True)

In [None]:
help(movies_df.sort_values)

In [None]:
movies_df.rating

# Ejercicio

Mostrar los directores que han dirigido una película de Sci-Fi con nota superior a un 8.