# Python for Data Analysis
## - 5 to 7

## 5 Getting Started with pandas

Pandas contiene estructuras de datos y herramientas de manipulación de datos diseñadas para hacer que la limpieza y el análisis de datos sean rápidos y convenientes en Python. Esta suele ser utilizada junto con herramientas de computación numérica como NumPy y SciPy, bibliotecas analíticas como statsmodels y scikit-learn, y bibliotecas de visualización de datos como matplotlib.

Pandad adopta diversos modismos de codificacion de NumPy, pero a defierencia de este Pandas esta diseñado para trabajar con datos tabulares o heterogeneos.
Siempre que se vea "pd" en el código se refiere a Pandas. También puede ser más fácil importar Series y DataFrame al espacio de nombres local.

In [74]:
 import numpy as np

 import pandas as pd

In [17]:
 from pandas import Series, DataFrame

**Introduction to pandas Data Structures**

*Series*

Una Serie es un objeto unidimensional similar a una matriz que contiene una secuencia de valores del mismo tipo y una matriz asociada de etiquetas de datos, llamada **index**.

In [40]:
 obj = pd.Series([1, 3, 6, 5])

 obj


0    1
1    3
2    6
3    5
dtype: int64

Como no se especifica un *index* para los datos, se crea uno predeterminado que consta de números enteros "0" hasta "N - 1".
Se puede obtener una representación del *Array* y del *Index*  de la Serie a traves del **Array** y **Index** ej:

In [41]:
 obj.array


<PandasArray>
[1, 3, 6, 5]
Length: 4, dtype: int64

In [42]:
 obj.index

RangeIndex(start=0, stop=4, step=1)

Atraves de Panda es posible agregar etiquetas al index de la Serie.
ej:

In [43]:
 obj2 = pd.Series([1, 3, 6, 5] , index=["a", "b", "c", "d"])
     
 obj2

a    1
b    3
c    6
d    5
dtype: int64

In [44]:
obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

A diferencia de NumPy se puede usar etiquetas en el index al seleccionar valores individuales o un conjunto de valores.
Otra manera de ver a la Serie es como un diccionario ordenado de longitud fija, ya que es una asignación de valores de índice a valores de datos. También se puede utilizar en otros contextos en los que se utilizaria un diccionario.

In [45]:
 "b" in obj2


True

In [46]:
"h" in obj2

False


Una Serie se puede volver a convertir en un diccionario con su **to_dict**

**Data Frame**

El *Data Frame* representa una tabla rectangular de datos y contiene una colección ordenada de columnas con nombre, cada una de las cuales puede tener un tipo de valor diferente. Se puede considerar como un diccionario de series que comparten el mismo index.

Hay distintas formas para construir un DataFrame, una de las mas comunes es a partir de un diccionario de listas de igual longitud o matrices NumPy.

In [47]:
data = {"state": ["Chih", "Chih", "Chih", "N.L", "N.L", "N.L"],
        "year": [2000, 2001, 2002, 2000, 2001, 2002],
        "pop": [1.5, 1.6, 3.3, 1.5, 1.6, 3.3]}
frame = pd.DataFrame(data)

El *Index* se le es asignado automaticamente como sucede en *Series* y las columnas se colocan según el orden de las claves **data**.

In [48]:
 frame

Unnamed: 0,state,year,pop
0,Chih,2000,1.5
1,Chih,2001,1.6
2,Chih,2002,3.3
3,N.L,2000,1.5
4,N.L,2001,1.6
5,N.L,2002,3.3


Para *DataFrames* grandes, el **head**  selecciona solo las primeras cinco filas. 

In [49]:
 frame.head()

Unnamed: 0,state,year,pop
0,Chih,2000,1.5
1,Chih,2001,1.6
2,Chih,2002,3.3
3,N.L,2000,1.5
4,N.L,2001,1.6


**Tail** devuelve las primeras 5 filas.

In [50]:
 frame.tail()

Unnamed: 0,state,year,pop
1,Chih,2001,1.6
2,Chih,2002,3.3
3,N.L,2000,1.5
4,N.L,2001,1.6
5,N.L,2002,3.3


Si se especifica una secuencia de columnas, las columnas del DataFrame se organizarán en ese orden. Pero si hay una columna que no viene incluida en el diccionario, esta aparecera con valores faltantes en el resultado.


In [51]:
 pd.DataFrame(data, columns=["pop", "year", "state"])

Unnamed: 0,pop,year,state
0,1.5,2000,Chih
1,1.6,2001,Chih
2,3.3,2002,Chih
3,1.5,2000,N.L
4,1.6,2001,N.L
5,3.3,2002,N.L


In [52]:
 pd.DataFrame(data, columns=["pop", "year", "state", "$"])

Unnamed: 0,pop,year,state,$
0,1.5,2000,Chih,
1,1.6,2001,Chih,
2,3.3,2002,Chih,
3,1.5,2000,N.L,
4,1.6,2001,N.L,
5,3.3,2002,N.L,


**Index Objects**

Los objetos Index de pandas son responsables de contener las etiquetas de los ejes y otros metadatos.
Los objetos de Index son inmutables y, por lo tanto, el usuario no puede modificarlos.

## 6  Data Loading, Storage, and File Formats

Obtener el acceso a los datos es uno de los primeros pasos en el proceso de un análisis de datos.

**Reading and Writing Data in Text Format**

**Indexing**: Puede tratar una o más columnas como el DataFrame devuelto y determinar si obtener los nombres de las columnas del archivo, los argumentos que proporciona o no obtenerlos.

**Type inference and data conversion**: Incluye las conversiones de valores definidas por el usuario y una lista personalizada de marcadores de valores faltantes.

**Date and time parsing**: Incluye una capacidad de combinación, incluida la combinación de información de fecha y hora distribuida en varias columnas en una sola columna en el resultado.

**Iterating**: Soporte para iterar sobre fragmentos de archivos muy grandes.

**Unclean data issues**: Incluye saltar filas o un pie de página, comentarios u otras cosas menores como datos numéricos con miles separados por comas.

La documentación de pandas en línea tiene muchos ejemplos sobre cómo funciona cada uno de estos.
En esto no necesariamente tiene que especificar qué columnas son numéricas, enteras, booleanas o de cadena. Otros formatos de datos, como HDF5, ORC y Parquet, tienen la información del tipo de datos incorporada en el formato.
Aunque para manejar fechas y otros tipos personalizados se requiere de un esfuerzo adicional.
Cuando se demilita por comas se utiliza odemos usar **pandas.read_csv** para leerlo en un DataFrame.

**Reading Text Files in Pieces**

Al procesar archivos muy grandes o descubrir el conjunto correcto de argumentos para procesar correctamente un archivo grande, es posible que desee leer solo una pequeña parte de un archivo o iterar a través de partes más pequeñas del archivo.
Entonces hacemos que la configuración de visualización de pandas sea más compacta con "**pd.options.display.max_rows**"

**Writing Data to Text Format**

Usando *to_csv* el método de DataFrame, podemos escribir los datos en un archivo separado por comas.

**Working with Other Delimited Formats**

Para cualquier archivo con un delimitador de un solo carácter, puede utilizar el módulo integrado de Python **csv.**, para usarlo, pase cualquier archivo abierto u objeto similar a un archivo a el **csv.reader**. Los archivos CSV vienen en muchos formatos diferentes. 

**JSON Data**

(JavaScript Object Notation) Es un formato estándar para enviar datos mediante solicitud HTTP entre navegadores web y otras aplicaciones. Es un formato de datos mucho más libre que un formato de texto tabular como el *CSV*.



In [110]:
obj = """
{"name": "Pepe",
 "cities_lived": ["California", "Texas", "New York", "San Francisco"],
 "pet": null,
 "siblings": [{"name": "Jose", "age": 24, "hobbies": ["drive", "soccer"]},
              {"name": "Alma", "age": 22, "hobbies": ["dance", "art"]}]
}
"""

Para convertir una cadena *JSON* al formato Python, se utiliza "**json.loads**" 

In [111]:
import json

In [104]:
result = json.loads(obj)

In [105]:
result

{'name': 'Pepe',
 'cities_lived': ['California', 'Texas', 'New York', 'San Francisco'],
 'pet': None,
 'siblings': [{'name': 'Jose', 'age': 24, 'hobbies': ['drive', 'soccer']},
  {'name': 'Alma', 'age': 22, 'hobbies': ['dance', 'art']}]}

"**son.dumps**" sirve para convier un objeto Python a *JSON*

In [106]:
 asjson = json.dumps(result)


In [107]:
 asjson

'{"name": "Pepe", "cities_lived": ["California", "Texas", "New York", "San Francisco"], "pet": null, "siblings": [{"name": "Jose", "age": 24, "hobbies": ["drive", "soccer"]}, {"name": "Alma", "age": 22, "hobbies": ["dance", "art"]}]}'

Se puede pasar una lista de diccionarios (los que eran objetos JSON) al constructor DataFrame y seleccionar un subconjunto de los campos de datos.

In [108]:
 siblings = pd.DataFrame(result["siblings"], columns=["name", "age"])

In [109]:
 siblings


Unnamed: 0,name,age
0,Jose,24
1,Alma,22


El **"pandas.read_json"** puede convertir automáticamente conjuntos de datos JSON en disposiciones específicas en un marco de datos o una serie.

**XML and HTML: Web Scraping**

Python tiene muchas bibliotecas para leer y escribir datos en los omnipresentes formatos HTML y XML.
Pandas tiene una función incorporada, **pandas.read_html** que sirve para analizar automáticamente tablas de archivos HTML como objetos DataFrame.

**Binary Data Formats**

Una forma sencilla de almacenar datos en formato binario es utilizar el módulo integrado de Python. Todos los objetos pandas tienen un **to_pickle** que escribe los datos en el disco en formato pickle. Los archivos Pickle, en general, solo se pueden leer en Python. Aunque pickle se recomienda sólo como formato de almacenamiento a corto plazo.

**Reading Microsoft Excel Files**

Pandas permite la lectura de datos tabulares almacenados en archivos de Excel utilizando **"pandas.ExcelFile"** o **"pandas.read_excell"**. Estos utilizan los paquetes complementarios *xlrd* y *openpyxl*, leen archivos *XLS* antiguos y *XLSX* más nuevos, respectivamente. Estos deben instalarse por separado de los pandas usando *pip* o *conda*

Para poder usar **"pandas.ExcelFile"** se crea una instancia pasando una ruta a un archivo *xls* o *xlsx*

**Interacting with Web APIs**

Muchos sitios web contienen *API* públicas que proporcionan fuentes de datos a través de *JSON* o algún otro formato. Existen viarias maneras de acceder a estas *API* a traves de *Python*, una manera común o mas adecuada es la de el paquete "**requests**", que se puede instalar con "pip" o "conda".
Se pueden llegar a crear algunas interfaces de nivel superior para API web que devuelven objetos DataFrame para un análisis más eficiente.

**Interacting with Databases**

Pandas contiene algunas funciones para simplificar la carga de los resultados de una consulta **SQL** en un *DataFrame*.
Se puede utilizar una base de datos **"SQLite3"** usando el *sqlite3* integrado en Python.
La mayoría de los controladores Python SQL devuelven una lista de tuples al seleccionar datos de una tabla, se puede pasar la lista de tuples al constructor *DataFrame*, pero se necesitan los nombres de las columnas, contenidos en el *description* del cursor. Pero el proyecto **"SQLAlchemy"** es un kit de herramientas Python SQL que abstrae muchas de las diferencias comunes entre las bases de datos SQL. Entonces en Pandas se tiene una función *read_sql* que permite leer datos fácilmente desde una conexión de *SQLAlchemy*.

## 7 Data Cleaning and Preparation

Durante el análisis y modelado de datos, la preparación de los datos consume una parte significativa del tiempo de un analista. A veces, los datos almacenados en archivos o bases de datos no tienen el formato adecuado para una tarea específica. Por lo tanto, se suele recurrir al procesamiento *ad hoc* de datos utilizando lenguajes de programación como *Python, Perl, R, Java* o herramientas de procesamiento de texto *Unix* como **sed** o **awk**. Pero pandas, junto con las funciones integradas de Python, ofrece un conjunto rápido, flexible y de alto nivel de herramientas para manipular datos de manera efectiva.
Preparar los datos de manera efectiva puede aumentar considerablemente la eficiencia, ya que te permite invertir más tiempo en analizar la información y menos en su preparación para el análisis.


**Handling Missing Data**

Los datos faltantes son comunes en muchas aplicaciones de análisis de datos. Pandas se enfoca en simplificar el trabajo con datos faltantes, excluyéndolos de manera predeterminada en las estadísticas descriptivas. 

Para datos con *"float64"* *dtype*, pandas utiliza el valor de punto flotante **NaN** para representar los datos faltantes.

In [116]:
float_data = pd.Series([1, 3, np.nan, 0])


In [117]:
float_data

0    1.0
1    3.0
2    NaN
3    0.0
dtype: float64

El metodo de **"isna"** nos da una serie *boolean* donde *"True"* son los valores nulos.

In [119]:
float_data.isna()

0    False
1    False
2     True
3    False
dtype: bool

En pandas, se sigue la convención de R al referirse a los datos faltantes como **"NA"** (not available). Los datos *"NA"* pueden indicar la ausencia de datos o la existencia de datos no observados debido a problemas en la recopilación de datos. Al limpiar datos para el análisis, a menudo es importante realizar un análisis de los datos faltantes para identificar problemas de recopilación de datos o posibles sesgos en los datos causados por los datos faltantes. 
El *"None"* es interpretado como *"NA"* tambien

In [122]:
 string_data = pd.Series(["frijol", np.nan, None, "manzana"])

In [124]:
 string_data

0     frijol
1        NaN
2       None
3    manzana
dtype: object

In [125]:
 string_data.isna()

0    False
1     True
2     True
3    False
dtype: bool

In [126]:
 float_data = pd.Series([1, 2, None], dtype='float64')

In [127]:
 float_data

0    1.0
1    2.0
2    NaN
dtype: float64

In [128]:
 float_data.isna()

0    False
1    False
2     True
dtype: bool

**Filtering Out Missing Data**

Hay diversas formas de filtrar los datos faltantes. Aunque esta la opción de hacerlo utilizando **"pandas.isna"**, el *"dropna"* puede ser útil. En una Serie, devuelve la Serie con solo los datos no nulos y los valores de index.

In [131]:
 data = pd.Series([1, np.nan, 3.5, np.nan, 7])

In [132]:
 data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

Pero también es lo mismo que hacer esto:

In [133]:
 data[data.notna()]

0    1.0
2    3.5
4    7.0
dtype: float64

Hay varias maneras de quitar datos que faltan. Puedes eliminar filas o columnas que estén completamente vacías, o solo las que tengan algún valor faltante. Por defecto, la función **dropna** elimina las filas que tengan al menos un valor faltante.

In [138]:
 data = pd.DataFrame([[1., 1.5, 2.], [1., np.nan, np.nan],
   ....:                      [np.nan, np.nan, np.nan], [np.nan, 1.5, 2.]])

In [139]:
 data

Unnamed: 0,0,1,2
0,1.0,1.5,2.0
1,1.0,,
2,,,
3,,1.5,2.0


In [140]:
data.dropna()

Unnamed: 0,0,1,2
0,1.0,1.5,2.0


 Al utilizar **how="all"** solo se eliminan las filas que sean completamente NA

In [141]:
  data.dropna(how="all")

Unnamed: 0,0,1,2
0,1.0,1.5,2.0
1,1.0,,
3,,1.5,2.0


Para eliminar columnas de la misma manera, es **axis="columns"**

In [142]:
 data[4] = np.nan

In [143]:
 data

Unnamed: 0,0,1,2,4
0,1.0,1.5,2.0,
1,1.0,,,
2,,,,
3,,1.5,2.0,


In [144]:
 data.dropna(axis="columns", how="all")

Unnamed: 0,0,1,2
0,1.0,1.5,2.0
1,1.0,,
2,,,
3,,1.5,2.0


**Data Transformation**
 
**Removing Duplicates**

El método DataFrame **duplicated** devuelve una serie boolean que indica si cada fila es duplicada (los valores de sus columnas son exactamente iguales a los de una fila anterior) o no.

In [145]:
 data = pd.DataFrame({"a1": ["one", "two"] * 3 + ["two"],
   ....:                      "a2": [1, 1, 2, 3, 3, 4, 4]})

In [146]:
 data

Unnamed: 0,a1,a2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [147]:
 data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

**Transforming Data Using a Function or Mapping**

Puede ser posible que se desee realizar alguna transformación basada en los valores de una matriz, serie o columna en un marco de datos.
Entonces:

In [150]:
 data = pd.DataFrame({"food": ["bacon", "ribeye", "bacon",
   ....:                               "egg", "cookies", "bacon",
   ....:                               "egg", "burger", "tacos"],
   ....:                      "ounces": [2, 3, 4, 5, 6.5, 7, 8, 9, 9]})


In [151]:
 data

Unnamed: 0,food,ounces
0,bacon,2.0
1,ribeye,3.0
2,bacon,4.0
3,egg,5.0
4,cookies,6.5
5,bacon,7.0
6,egg,8.0
7,burger,9.0
8,tacos,9.0


 Entones supongamos que queremos agregar una columna donde se indique de donde proviene cada alimento: 

In [152]:
origin = {
  "bacon": "pig",
  "ribeye": "cow",
  "egg": "chicken",
  "cookies": "flour",
  "burger": "cow",
  "tacos": "tortilla"
}

El metodo de **map** en una Serie acepta una función u objeto similar a un diccionario que contiene un mapeo para realizar la transformación de valores.

In [153]:
  data["origin"] = data["food"].map(origin)

In [154]:
 data

Unnamed: 0,food,ounces,origin
0,bacon,2.0,pig
1,ribeye,3.0,cow
2,bacon,4.0,pig
3,egg,5.0,chicken
4,cookies,6.5,flour
5,bacon,7.0,pig
6,egg,8.0,chicken
7,burger,9.0,cow
8,tacos,9.0,tortilla


El uso **map** es una forma conveniente de realizar transformaciones de elementos y otras operaciones relacionadas con la limpieza de datos.

**Extension Data Types**

Pandas se basó originalmente en NumPy, una biblioteca para trabajar con datos numéricos. Utilizó las capacidades de NumPy para implementar conceptos como datos faltantes. Sin embargo, hubo limitaciones al usar NumPy como:

NumPy no manejaba adecuadamente datos faltantes para tipos como enteros y booleanos, lo que obligaba a pandas a convertirlos a **float64** y usar **np.nan** para representar valores nulos, lo que causaba problemas en algoritmos de pandas.

El procesamiento de conjuntos de datos con muchas cadenas era computacionalmente costoso y requería mucha memoria.

Tipos de datos como intervalos de tiempo y marcas de tiempo con zonas horarias no eran eficientemente compatibles sin usar matrices de objetos Python, lo que era costoso computacionalmente.





Pandas desarrollo un sistema de tipos de extensión que permite agregar nuevos tipos de datos incluso si NumPy no los admite de forma nativa. Estos nuevos tipos de datos se pueden tratar como de primera clase junto con los datos provenientes de matrices NumPy.

**String Manipulation**

Python ha sido muy popular para trabajar con datos en bruto, en parte debido a lo fácil que es manipular cadenas y texto. Python ofrece métodos integrados que simplifican muchas operaciones relacionadas con el texto. Sin embargo, para tareas más complejas como encontrar patrones específicos o manipulaciones más detalladas del texto, a menudo se recurre a expresiones regulares.

Pandas, por su parte, amplía las capacidades al permitirte aplicar operaciones de texto y expresiones regulares de manera eficiente a conjuntos completos de datos. Además, ofrece facilidades para manejar datos faltantes, lo que simplifica el proceso de manipulación y análisis de datos en Python.

**Python Built-In String Object Methods**

En muchas apps de *scripting* y manipulación de cadenas, los métodos de cadenas integrados son suficientes. Por ejemplo una cadena separada por comas se puede dividir en pedazos con **"split"** 

In [157]:
 val = "a,b,  Hello"

In [158]:
 val.split(",")

['a', 'b', '  Hello']

**split** suele combinarse con **strip** para recortar espacios en blanco (incluidos los saltos de línea)

In [159]:
 pieces = [x.strip() for x in val.split(",")]

In [160]:
 pieces

['a', 'b', 'Hello']

Una forma rápida es pasar una lista o tupla al metodo de **join** en la cadena "::"

In [161]:
 "::".join(pieces)

'a::b::Hello'

**Regular Expressions**

Las refunciones del módulo se dividen en tres categorías: coincidencia de patrones, sustitución y división.
Naturalmente, todos estos están relacionados; una expresión regular describe un patrón para ubicar en el texto, que luego puede usarse para muchos propósitos.

**String Functions in pandas**

Limpiar un conjunto de datos desordenado para su análisis a menudo requiere mucha manipulación de cadenas. Para complicar las cosas, a una columna que contiene cadenas a veces le faltan datos.

In [168]:
  data = {"Alma": "alma@google.com", "Dirce": "dirce@gmail.com",
   .....:         "Ramos": "Ramos@gmail.com", "Wes": np.nan}

In [169]:
 data = pd.Series(data)

In [170]:
 data

Alma     alma@google.com
Dirce    dirce@gmail.com
Ramos    Ramos@gmail.com
Wes                  NaN
dtype: object

In [171]:
 data.isna()

Alma     False
Dirce    False
Ramos    False
Wes       True
dtype: bool

Series tiene métodos orientados a matrices para operaciones de cadenas que omiten y propagan valores NA. Se accede a estos a través del **str** atributo de Serie, por ejemplo se puede comprobar si cada dirección de correo "gmail" esta en **str.contains**

In [172]:
 data.str.contains("gmail")

Alma     False
Dirce     True
Ramos     True
Wes        NaN
dtype: object

**Categorical Data**
 

**Background and Motivation**

En varios sistemas de manejo de información, como bases de datos o software estadístico, se han creado métodos especiales para manejar datos que se repiten con el fin de ahorrar espacio y procesamiento. Este enfoque ayuda a optimizar el almacenamiento y los cálculos relacionados con los datos repetidos.

**Categorical Extension Type in pandas**

Pandas tiene un **Categorical** tipo de extensión especial para almacenar datos que utiliza la representación o codificación categórica basada en números enteros . Esta es una técnica de compresión de datos popular para datos con muchas apariciones de valores similares y puede proporcionar un rendimiento significativamente más rápido con un menor uso de memoria, especialmente para datos de cadenas.

**Computations with Categoricals**

El uso de *Categorical* en pandas en comparación con la versión no codificada (como una matriz de cadenas) generalmente se comporta de la misma manera. Algunas partes de *pandas*, como la función **groupby**, funcionan mejor cuando se trabaja con categóricos. También hay algunas funciones que pueden utilizar la **ordered** bandera.

**Categorical Methods**

En conjuntos de datos grandes, los categóricos se utilizan a menudo como una herramienta conveniente para ahorrar memoria y mejorar el rendimiento. Después de filtrar un DataFrame o una serie grande, es posible que muchas de las categorías no aparezcan en los datos. Para solucionar esto se utiliza el metodo de **remove_unused_categories**  para recortar categorías no observadas.


**Métodos categóricos para series en Pandas**

**add_categories:**	Agregar categorías nuevas (no utilizadas) al final de las categorías existentes

**as_ordered:**	Hacer categorías ordenadas

**as_unordered:**	Hacer categorías desordenadas

**remove_categories:**	Eliminar categorías, estableciendo los valores eliminados en nulo.

**remove_unused_categories:**	Elimine cualquier valor de categoría que no aparezca en los datos.

**rename_categories:**	Reemplaza las categorías con el conjunto indicado de nuevos nombres de categorías; No se puede cambiar el número de categorías.

**reorder_categories:**	Se comporta como *rename_categories*, pero también puede cambiar el resultado para tener categorías ordenadas.

**set_categories:**	Reemplaza las categorías con el conjunto indicado de nuevas categorías; puede agregar o eliminar categorías.