# Pandas para manipulación y análisis de datos

Esta construida sobre la base de Numpy, las dos estructuras principales que ofrece pandas son:
- Series
- Dataframes
Si buscas roles como científico de datos, analista, ingeniero de datos o incluso bussiness inteligence uno de los skills que necesitas es el uso de pandas, ademas lo puedes aplicar a un proyecto que añadirás a tu portafolio, puedes usar datasets liberados, estos los podemos encontrar en:
- Kaggle
- Repositorio de Machine Learning UCI

En este caso usaremos el DataSet Online Retail donde identificaremos los productos más vendidos, analizar el comportamiento de clientes y picos de ventas.


In [None]:
import pandas as pd
path = '/Users/hectorastudillo/py-proyects/data-analysis/pandas/Online_Retail.csv'
retail_data = pd.read_csv(path, encoding='latin1') #Se agregó un argumento de más que corrige la codificación del archivo pues por defecto en este caso NO esta en utf-8

#retail_data = pd.read_csv(path, encoding='utf-8', errors='ignore')

print(type(retail_data))
#Estamos trabajando con una clase propia de la libreria
print('Información del CSV:\n',retail_data)

<class 'pandas.core.frame.DataFrame'>
Información del CSV:
        InvoiceNo StockCode                          Description  Quantity  \
0         536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1         536365     71053                  WHITE METAL LANTERN         6   
2         536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3         536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4         536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   
...          ...       ...                                  ...       ...   
541904    581587     22613          PACK OF 20 SPACEBOY NAPKINS        12   
541905    581587     22899         CHILDREN'S APRON DOLLY GIRL          6   
541906    581587     23254        CHILDRENS CUTLERY DOLLY GIRL          4   
541907    581587     23255      CHILDRENS CUTLERY CIRCUS PARADE         4   
541908    581587     22138        BAKING SET 9 PIECE RETROSPOT          3   

          Invoi

Si bien nuestra información esta en formato CSV, tambien la podemos presentar en formato de Excel o JSON...
- data_excel = pd.read_excel(path)
- data_json = pd.read_json(path)

# Consejo:
Cuando te estes postulando a un puesto de trabajo trata de identificar que tipo de problemas se quiere resolver, entonces cuando estemos desarrollando nuestro portafolio debemos de seleccionar a un set de datos similar a los problemas que se enfrenta la empresa.

# DataFrames
Veremos como crear dataframes con pandas. 
Un dataframe en pandas es una estructura de datos bidimensional similar a una tabla en una base de datos o archivo excel, contiene columnas y filas en las que cada columna puede contener un tipo de dato diferente lo que lo hace ideal para el análisis de datos.
Los dataframes son el corazón de Pandas.
Crearemos un dataframe desde el csv que vamos a utilizar que es el Online_retail.csv...
Primero veremos el método HEAD de pandas que me trae un resumen de toda la información que tengo.

In [None]:
print(retail_data.head())
#Esta es una primera manera de crear un dataframe leyendo desde un csv

In [6]:
import numpy as np

#Crearemos un array bidimensional
data = np.array([[1,2,3], [4,5,6], [7,8,9]])
df_from_array = pd.DataFrame(data, columns=['A','B','C']) #Le pasamos de donde obtendrá la infromación, el nombre de las columnas que tendrá nuestro dataframe, esto claramente respecto a la dimensión que tiene nuestra matriz (dimensión 2 array)
print('DataFrame creado con Numpy (array/matriz) y Pandas(DataFrame/columnas):\n',df_from_array)

DataFrame creado con Numpy (array/matriz) y Pandas(DataFrame/columnas):
    A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


# Los dataframes tambien pueden ser creados a partir de una lista o diccionario...

In [10]:
# Tendremos 3 columnas, id, name y age
data = [[1, 'Jhon', 23], [2, 'Ana', 24]]
df_from_list = pd.DataFrame(data, columns=['ID', 'Name', 'Age'])
print('DataFrame from a list:\n', df_from_list)

#Con diccionarios
#Igual tengo una lista pero ahora tendremos una clave o llave que directamente le indicaré con su valor, el primero es ID, luego el nombre con su respectivo valor y edad con su respectivo valor...
data = [{'ID': 1,
         'Name': 'Jhon',
         'Age': 21},
        {'ID': 2,
         'Name': 'Ana',
         'Age': 24}]
dt_from_dict = pd.DataFrame(data) #Las columnas ya las especificamos dentro del diccionario directamente
print('Dataframe from a Dictionary:\n', dt_from_dict)

#Ahora, puede haber el caso en el que las claves son el nombre de cada columna y cada valor que va a ir acompañado de la clave va a ser una lista...

data = {'ID': [1,2,3], 
        'Name': ['Jhon', 'Ana', 'Mike'],
        'Age': [22,24,21]}
df_from_dict_list = pd.DataFrame(data)
print('DataFrame from a Dict(columns) with List(rows):\n', df_from_dict_list)

DataFrame from a list:
    ID  Name  Age
0   1  Jhon   23
1   2   Ana   24
Dataframe from a Dictionary:
    ID  Name  Age
0   1  Jhon   21
1   2   Ana   24
DataFrame from a Dict(columns) with List(rows):
    ID  Name  Age
0   1  Jhon   22
1   2   Ana   24
2   3  Mike   21


En pandas como bien mencionamos tenemos la herramienta principal que son los dataframes QUE SON DATOS BIDIMENSIONALES, LAS MATRICES SON BIDIMENSIONALES, pero en este caso nos referimos a tablas sin embargo, podemos descomponer dataframes en lo que sería una serie

# Series
Cada serie corresponde a una columna que equivaldría a un dato uni-dimensional, tendriamos una serie ID, nombre y edad, imagina que son las listas en el último código que hicimos...

In [11]:
#Partimos desde un diccionario que tendrá como información de filas una serie...
data = {'ID': pd.Series([1,2,3]), 
        'Name': pd.Series(['Jhon', 'Ana', 'Mike']),
        'Age': pd.Series([22,24,21])}

df_from_series_dict = pd.DataFrame(data)
print('DataFrame from Series in a Dict:\n', df_from_series_dict)

DataFrame from Series in a Dict:
    ID  Name  Age
0   1  Jhon   22
1   2   Ana   24
2   3  Mike   21


Si usas Google Colab, puedes acceder a tus archivos para su lectura sin necesidad de cargarlo manualmente al contenido de Colab con el sigueinte código a partir de Google Drive:

from google.colab import drive

drive.mount('/content/drive')
path = "/content/drive/My_drive/online_retail.csv"

data = pd.read_csv(path)
print(data.head())