# Introducción a Pandas
### Crecencio J García T

In [4]:
import pandas as pd

## Series

In [3]:
pd.Series?

In [6]:
dias = ['lunes', 'martes', 'miercoles', 'jueves', 'viernes', 'sabado', 'domingo']
dias_serie = pd.Series(dias)
dias_serie


0        lunes
1       martes
2    miercoles
3       jueves
4      viernes
5       sabado
6      domingo
dtype: object

In [7]:
dias_serie = pd.Series(dias, name='dias_semana')
print(dias_serie)

0        lunes
1       martes
2    miercoles
3       jueves
4      viernes
5       sabado
6      domingo
Name: dias_semana, dtype: object


### Crear una serie mediante un dict

In [10]:
dias_dict ={'lun': 'lunes', 'mar': 'martes', 'mie':'miercoles', 'jue': 'jueves', 'vie': 'viernes', 'sab': 'sabado', 'dom':'domingo'}
dias_dict_s = pd.Series(dias_dict, name='dias_dict')
dias_dict_s

lun        lunes
mar       martes
mie    miercoles
jue       jueves
vie      viernes
sab       sabado
dom      domingo
Name: dias_dict, dtype: object

### Series numericas

In [19]:
valores = pd.Series([1,2,3, None])
valores

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64

### Series de Objetos

In [18]:
objectos = pd.Series(['Hola', 'Adios', 5, None])
objectos

0     Hola
1    Adios
2        5
3     None
dtype: object

### Elementos Faltantes

In [20]:
import numpy as np

In [21]:
np.nan is None

False

In [22]:
np.nan is np.nan

True

In [23]:
np.nan == None

False

In [24]:
np.nan == np.nan

False

#### Comprobar Not a Number

In [28]:
np.isnan(5)

False

In [29]:
np.isnan(np.nan)

True

## Buscar en una serie:

#### Buscar por Index o Fila:

In [32]:
dias_dict_s[0]

'lunes'

In [33]:
dias_dict_s.iloc[0]

'lunes'

In [34]:
dias_dict_s['lun']

'lunes'

In [36]:
# dias_dict_s.iloc['lun'] No permitdio

In [41]:
dias_dict_s.loc['lun']

'lunes'

## DataFrame

### Definiendo un Pandas Dataframe

In [5]:
pd.DataFrame?

In [6]:
# Creamos un pequeño dataset basado en 5 series

compra_1 = pd.Series({
    'item': 'huevos',
    'cantidad': 12,
    'precio': 7,
})

compra_2 = pd.Series({
    'item': 'leche',
    'cantidad': 2,
    'precio': 65,
})

compra_3 = pd.Series({
    'item': 'queso',
    'cantidad': 1,
    'precio': 155.25,
})

compra_4 = pd.Series({
    'item': 'pan',
    'cantidad': 10,
    'precio': 5,
})

compra_5 = pd.Series({
    'item': 'jugo manzana',
    'cantidad': 2,
    'precio': 170.00,
})

# Creamos una lista con todas las compras:
compras = [compra_1, compra_2, compra_3, compra_4, compra_5]

# Creamos una lista con los index que serían las tiendas:
tiendas = ['Tienda A', 'Tienda B', 'Tienda C', 'Tienda D', 'Tienda D']

# Creamos nuestro Pandas dataframe:
compras_df = pd.DataFrame(compras, index=tiendas)

# Mostramos por pantalla nuestro df:
compras_df



Unnamed: 0,item,cantidad,precio
Tienda A,huevos,12,7.0
Tienda B,leche,2,65.0
Tienda C,queso,1,155.25
Tienda D,pan,10,5.0
Tienda D,jugo manzana,2,170.0


### Buscar en un Pandas Dataframe:

#### Buscar una fila en particular:

In [9]:
tienda_a = compras_df.loc['Tienda A']
tienda_a

item        huevos
cantidad        12
precio           7
Name: Tienda A, dtype: object

#### El tipo de datos de una fila en Pandas

In [10]:
type(tienda_a)

pandas.core.series.Series

#### Buscar una columna en particular:

In [11]:
items_nombre = compras_df['item']
items_nombre

Tienda A          huevos
Tienda B           leche
Tienda C           queso
Tienda D             pan
Tienda D    jugo manzana
Name: item, dtype: object

### Basado en lo que ya sabemos sobre Numpy. ¿Se les ocurre una forma de utilizar df.loc para buscar por columna?

#### Buscar una celda en particular (por index):

In [14]:
tienda_c_item = compras_df.loc['Tienda C', 'item']
tienda_c_item

'queso'

#### Buscar una celda en particular (slicing):

In [15]:
tienda_b_item = compras_df.loc['Tienda B']['item']
tienda_b_item

'leche'

#### Buscar varias columnas con slicing:

In [17]:
nombre_precio = compras_df.loc[:, ['item', 'precio']]
nombre_precio

Unnamed: 0,item,precio
Tienda A,huevos,7.0
Tienda B,leche,65.0
Tienda C,queso,155.25
Tienda D,pan,5.0
Tienda D,jugo manzana,170.0


### Eliminar filas y columnas en un DataFrame:

#### Eliminar por index:

In [20]:
compras_df.drop('Tienda A')

Unnamed: 0,item,cantidad,precio
Tienda B,leche,2,65.0
Tienda C,queso,1,155.25
Tienda D,pan,10,5.0
Tienda D,jugo manzana,2,170.0


#### El metodo drop por default no elimina nada, solo devuelve una copia del df sin la columna o fila indicada

In [33]:
compras_df

Unnamed: 0,item,cantidad,precio
Tienda A,huevos,12,7.0
Tienda B,leche,2,65.0
Tienda C,queso,1,155.25
Tienda D,pan,10,5.0
Tienda D,jugo manzana,2,170.0


In [45]:
compras_df.drop?

#### Copiando una porcion del DF:

In [46]:
compras_item_cantidad = compras_df.copy()
compras_item_cantidad.drop(labels='precio', axis=1, inplace=True)
compras_item_cantidad

Unnamed: 0,item,cantidad
Tienda A,huevos,12
Tienda B,leche,2
Tienda C,queso,1
Tienda D,pan,10
Tienda D,jugo manzana,2


#### Eliminando una columna con la sentencia del (definitivo)

In [48]:
del compras_item_cantidad['cantidad']
compras_item_cantidad


Unnamed: 0,item
Tienda A,huevos
Tienda B,leche
Tienda C,queso
Tienda D,pan
Tienda D,jugo manzana


### Agregando una columna al DataFrame:

In [49]:
compras_item_cantidad['cliente'] = 'S/A'
compras_item_cantidad

Unnamed: 0,item,cliente
Tienda A,huevos,S/A
Tienda B,leche,S/A
Tienda C,queso,S/A
Tienda D,pan,S/A
Tienda D,jugo manzana,S/A


## Trabajando con Ficheros

In [None]:
# Cargemos este dataset: http://datos.gob.do/dataset/ocurrencias-incendios-forestales
