# Introducción a Pandas

Los principales objetos ofrecidos por pandas son el **DataFrame** (Estructura tabular bidimencional) y la **serie** ambas basadas en el array multidimencional de NumPy. Cabe mencionar que Pandas supera ciertas limitaciones que tiene NumPy a la hora de realizar analisis de datos.

In [9]:
%config IPCompleter.greedy=True

In [1]:
#Importacion de la libreia pandas con habitual alias pd

import pandas as pd

#Se imnporta la libreria NumPy para poder aprovechar la funcionalidad que ofrece sobre pandas
#Hay que recordar que Pandas esta construida por NumPy, por eso NumPy es necesario 
import numpy as np

## Introduccion a las series

Son estructuras unidimensionales conteniendo un array de datos (de cualquier tipo soportado por NumPy)  y un array de etiquetas que van asociadas a los datos, llamado indice (index)

In [2]:
ventas = pd.Series([15, 12,21], index = ["Ene", "Feb", "Mar"])
ventas

Ene    15
Feb    12
Mar    21
dtype: int64

In [6]:
#Extraer datos de la serie por indice
ventas[0]

15

In [7]:
#Extraer datos por medio de la etiqueta
ventas["Ene"]

15

In [8]:
#Saber el tipo de la serie
ventas.dtype

dtype('int64')

In [10]:
#Acceso al objeto index de la serie
ventas.index
#Observe que el tipo de dato del objeto index es object

Index(['Ene', 'Feb', 'Mar'], dtype='object')

In [5]:
#Acceso al objeto de values de la serie
ventas.values
#Nos devuelve un array de NumPy con sus valores y el tipo de datos de ese array
#print(type(ventas.values))  #Podemos ejecutar esta linea para comprobar lo dicho anteriormente

array([15, 12, 21], dtype=int64)

Acerca del atributo **name**

In [6]:
#Podemos establecer un nombre a la serie, por medio del atributo name
ventas.name = "Ventas 2018"
ventas.name

'Ventas 2018'

In [15]:
ventas

Ene    15
Feb    12
Mar    21
Name: Ventas 2018, dtype: int64

In [17]:
#el objeto index tambien tiene el atributo name
ventas.index.name = "MESES"
ventas

MESES
Ene    15
Feb    12
Mar    21
Name: Ventas 2018, dtype: int64

Otros atributos interesantes de la **Series**

In [18]:
#El atributo axes nos da un acceso a una lista con los ejes de la serie
ventas.axes

[Index(['Ene', 'Feb', 'Mar'], dtype='object', name='MESES')]

In [19]:
#El atributo shape nos devuelve el tamaño de la serie en tupla
ventas.shape

(3,)

In [8]:
#El atributo size, duvuelve el numero de elementos contenidas de la serie
ventas.size

3

In [9]:
#Indicador si una Serie/DataFrame esta vacio
ventas.empty

False

In [10]:
#Devuelve el tipo de datos de la Serie
ventas.dtypes

dtype('int64')

## Introduccion a los DataFrames
 Son estrcuturas tabulares de datos orientadas a columnas, con etiquetas tanto en filas como en columnas

In [12]:
#Creacion dataframe con ayuda del constructor DataFrame, pasandolo un 
#diccionario y una lista, donde el diccionario son las columnas y sus respectivos valortes
#La lista son las etiquetas de las filas.
ventas = pd.DataFrame({"Entradas" : [41, 32, 56, 18],
                     "Salidas": [17, 54, 6, 78],
                     "Valoracion": [66, 54, 49, 66],
                     "Limite": ["No", "Si", "No", "No"],
                     "Cambio": [1.43, 1.16, -0.67,0.77]
                      },
                     index = ["Ene", "Feb", "Mar", "Abr"]
                     )
ventas

Unnamed: 0,Entradas,Salidas,Valoracion,Limite,Cambio
Ene,41,17,66,No,1.43
Feb,32,54,54,Si,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


In [13]:
#Acceder a los tipos de datos de cada una las columnas con el atributo dtypes.
ventas.dtypes

Entradas        int64
Salidas         int64
Valoracion      int64
Limite         object
Cambio        float64
dtype: object

Para los DataFrames se tienen dos objetos para hacer referencia a los "indices"
* **index** (indice de la filas, etiquetas filas)
* **columns** (indice de las columnas, etiquetas columnas)

Tanto para las *Series y DataFrames*, los objetos de tipo **Index**, **son inmutables**

In [25]:
#Acceder a las etiquetas de las filos y columnas
print(f'Etiquetas filas: {ventas.index} \n')
print(f'Etiquetas columnas: {ventas.columns}')
#Ambas sentencias retornar un objetos de tipo Index

Etiquetas filas: Index(['Ene', 'Feb', 'Mar', 'Abr'], dtype='object') 

Etiquetas columnas: Index(['Entradas', 'Salidas', 'Valoracion', 'Limite', 'Cambio'], dtype='object')


In [14]:
#Tambien podemos usar el atributo name para los objetos Index del DataFrame
ventas.index.name = "Meses"
ventas.columns.name = "Metricas"
ventas

Metricas,Entradas,Salidas,Valoracion,Limite,Cambio
Meses,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ene,41,17,66,No,1.43
Feb,32,54,54,Si,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


Otros **Atributos** interesantes de los **DataFrame**

In [26]:
#El atributo axes  devuelve una listad con los ejes de la estructura 
#dos al tratarse de una estructura bidimencional
ventas.axes

[Index(['Ene', 'Feb', 'Mar', 'Abr'], dtype='object'),
 Index(['Entradas', 'Salidas', 'Valoracion', 'Limite', 'Cambio'], dtype='object')]

In [15]:
#Se puede acceder a los valores de un dataframe, con el atributo
#values el cual nos retorna un array de NumPy 2d con los valores del DF
print(f'Tipo de dato: {type(ventas.values)}')
ventas.values

Tipo de dato: <class 'numpy.ndarray'>


array([[41, 17, 66, 'No', 1.43],
       [32, 54, 54, 'Si', 1.16],
       [56, 6, 49, 'No', -0.67],
       [18, 78, 66, 'No', 0.77]], dtype=object)

In [31]:
#Obtener las dimenciones o tamaño de un dataframe
ventas.shape

(4, 5)

In [16]:
#Retorna el numero de elementos contenidas en el DataFrame
ventas.size

20

In [17]:
#Retorna una bandera si el DataFrame esta vacio
ventas.empty

False