<a href="https://colab.research.google.com/github/dxfl/AprendiendoGit/blob/main/Intro_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Pandas. Esquema para desarrollar

1. Qué es Pandas
2. Instalación
3. Dataframes
4. Cargar datos
4. Tipos de datos
  - Enteros
  - Coma flotante
  - String
  - Categóricos
  - Fecha y hora
5. NA
6. Operadores
7. Agregando
8. Conversión
9. Manipulación
10. Indexado
11. Gráficos

# 1. Introducción a Pandas

**Pandas** es la librería de Python, de código abierto, por excelencia, cuando hablamos de análisis y manejo de datos estructurados, como tablas o series temporales.

Ofrece estructuras de datos flexibles, como DataFrame (tablas bidimensionales similares a una hoja de cálculo) y Series (vectores unidimensionales), permitiendo operaciones como filtrado, agrupación, ordenamiento, agregación y limpieza de datos de manera eficiente.

Pandas es ideal para tareas como la preparación de datos para el análisis, la transformación de formatos de datos (CSV, Excel, JSON, Parquet, entre otros), y la realización de cálculos estadísticos básicos o avanzados.

Su capacidad de integración con otras bibliotecas como NumPy, Matplotlib y PyArrow lo convierte en una herramienta fundamental en ciencia de datos, análisis financiero, machine learning y cualquier campo que requiera trabajar con grandes volúmenes de datos.

Más información en: https://pandas.pydata.org/



# 2. Instalar Pandas

1. Anaconda

Si estamos utilizando **Anaconda** como nuestra distribución de Python, https://anaconda.com, la forma más sencilla es ejecutar:

```shell
$ conda install pandas
```

También podemos aprovechar para instalar la librería **PyArrow** que es útil para manejar datos en memoria y nos permitirá trabajar en formatos pensados para grandes volúmenes de datos, como **Parquet** o **Feather**

```shell
$ conda install pandas pyarrow
```

2. Pip

Si utilizamos **Pip** es tan fácil como ejecutar:

```shell
$ pip install pandas
````

O

```shell
$ pip install pandas pyarrow
````


Para comprobar que tenemos instalada la librería, podemos importarla y llamar a la función *_ _ version _ _*


In [None]:
import pandas as pd # pd es un alias para no tener que escribir 'pandas' cada vez

pd.__version__

'2.2.2'

# 3. DataFrame

Un **DataFrame** es la unidad básica de trabajo en Pandas. Se trata de una estructura de datos, una tabla, en la que los datos se organizan en filas y columnas.

Las filas contienen los datos, u observaciones, y las columnas son los atributos o variables de cada observación.

Cada columna puede tener un tipo de datos diferente, números, texto, fechas... Por lo que se trata de una estructura muy flexible y permite manejar datos heterogéneos.

Tanto las filas como las columnas tienen etiquetas. Las etiquetas de las filas se llaman **índice**, por defecto son números consecutivos, pero se puede personalizar a cualquier nombre. Las etiquetas de las columnas son los nombres de las variables.

Por ejemplo, esta tabla de frutas:

||Nombre|Color|Unidades|
|--|--|--|--|
|1|Naranja|Naranja|4|
|2|Plátano|Amarillo|6|
|3|Mandarina|Naranja|12|
|4|Pera|Verde|2|


En la que las columnas definien los atributos, Nombre, Color y Unidades, y cada línea empieza con el índice correspondiente y contiene un caso de nuestra tabla, lo que tenemos en la cocina.


Sobre un DataFrame se pueden realizar operaciones como filtrar filas, seleccionar columnas, cálculos entre datos, combinar tablas y transformar formatos de datos, como veremos más adelante.




# 4. Cargar datos

Podemos cargar datos en un DataFrame de Pandas de muchas maneras, dependiendo de la fuenta que estemos tratando.

1. Desde archivos comunes

- CSV (texto separado por comas):
```python
df = pd.read_csv("archivo.csv")
```

- Excel (XLS/XLSX):
```python
df = pd.read_excel("archivo.xlsx", sheet_name="Hoja1")
```

- JSON:
```python
df = pd.read_json("archivo.json")
```

- Texto (con delimitadores personalizados):
```python
df = pd.read_table("archivo.txt", sep="\t")
````

2. Desde bases de datos
- SQL:
```python
import sqlite3
conn = sqlite3.connect("mi_base_de_datos.db")
df = pd.read_sql("SELECT * FROM tabla", conn)
```

- Desde otros gestores como MySQL, PostgreSQL o SQL Server utilizando bibliotecas como sqlalchemy.

3. Desde formatos avanzados
- Parquet:
```python
df = pd.read_parquet("archivo.parquet")
```

- Feather:
```python
df = pd.read_feather("archivo.feather")
```

- HDF5:
```python
df = pd.read_hdf("archivo.h5", key="datos")
````

4. Desde APIs o servicios web
- JSON desde una API REST:
```python
import requests
response = requests.get("https://api.example.com/data")
df = pd.DataFrame(response.json())
````

5. Desde otros formatos o estructuras de datos
- Listas o diccionarios en Python:
```python
data = {'columna1': [1, 2, 3], 'columna2': ['A', 'B', 'C']}
df = pd.DataFrame(data)
```

- Archivos ZIP o comprimidos:
```python
df = pd.read_csv("archivo.zip")
```

- Archivos de texto dentro de un ZIP:
```python
df = pd.read_csv("archivo.zip", compression='zip')
````

6. Desde la web o sistemas externos
- Desde una URL:
```python
df = pd.read_csv("https://example.com/data.csv")
```

- Desde Google Sheets (con la URL exportada como CSV):
```python
url = "https://docs.google.com/spreadsheets/d/archivo_id/export?format=csv"
df = pd.read_csv(url)
````

7. Desde otras librerías
- Numpy Arrays:
```python
import numpy as np
arr = np.array([[1, 2, 3], [4, 5, 6]])
df = pd.DataFrame(arr, columns=["A", "B", "C"])
```

- Spark DataFrames:
```python
df_pandas = spark_df.toPandas()
````


# 5. Tipos de datos

Panda soporta muchos tipos de datos, que podemos usar según las necesidades que tengamos.

Los más comunes son:
  - **Int**. Números enteros, positivos o negativos.
  - **Float**. Números decimales con coma flotante.
  - **Object**. Genérico para texto y otros objetos de Python.
  - **String**. Obtimizado para texto.
  - **Booleanos**. Valores, lógicos verdadero o falso.
  - **Datetime**. Para fechas y horas

Merece la pena ajustar bien el tipo de datos, ocuparán menos espacio y las tareas serán más rápidas.

Pandas es una biblioteca versátil que permite manejar diferentes tipos de datos, tanto básicos como avanzados. Esto facilita trabajar con información diversa y realizar análisis complejos. A continuación, se describen los principales tipos de datos que Pandas soporta:

1. Tipos básicos de datos
	•	Numéricos:
	•	int64: Números enteros (positivos o negativos).
	•	float64: Números en punto flotante (decimales).
	•	complex: Números complejos (poco común en Pandas).
	•	Texto:
	•	object: Tipo genérico que incluye cadenas de texto (str) y otros objetos de Python.
	•	string: Tipo optimizado para cadenas de texto introducido en versiones recientes de Pandas.
	•	Booleanos:
	•	bool: Valores lógicos True o False.

2. Tipos avanzados
	•	Fechas y tiempos:
	•	datetime64[ns]: Representa fechas y tiempos (ej., 2023-12-31 23:59:59).
	•	timedelta[ns]: Diferencias entre dos tiempos (duraciones).
	•	Categorías:
	•	category: Tipo optimizado para datos categóricos (por ejemplo, colores como “rojo”, “verde”, “azul”). Reduce uso de memoria y mejora el rendimiento en operaciones como filtrado y agrupación.
	•	Datos faltantes:
	•	NaN (Not a Number): Representa valores faltantes o nulos en datos numéricos.
	•	None: Representa valores faltantes en datos de tipo objeto o texto.

3. Tipos específicos (extensiones)
	•	Datos geoespaciales:
	•	Soportados a través de bibliotecas como geopandas, que utiliza GeoSeries para manejar datos espaciales como puntos, líneas y polígonos.
	•	Datos de precisión arbitraria:
	•	Utilizando extensiones como decimal.Decimal para cálculos financieros precisos.
	•	Datos complejos:
	•	Pandas puede manejar listas, diccionarios y otros objetos dentro de columnas con el tipo object, aunque esto puede ser menos eficiente.

4. Conversión y detección de tipos

Pandas permite convertir entre tipos de datos según sea necesario:
	•	Convertir manualmente:

df['columna'] = df['columna'].astype('int64')  # Convertir a entero


	•	Detectar y optimizar tipos automáticamente:

df = pd.read_csv("archivo.csv", dtype={"columna": "category"})



5. Soporte para datos externos

Pandas puede integrar tipos de datos personalizados a través de extensiones como pyarrow y fastparquet para manejar formatos como Parquet o Feather.

Resumen de usos prácticos:
	•	Numéricos: Análisis estadístico, cálculo de métricas.
	•	Texto: Manipulación de cadenas, análisis de datos no estructurados.
	•	Fechas y tiempos: Análisis temporal, series de tiempo.
	•	Categorías: Clasificación, reducción de memoria en datos repetitivos.
	•	Booleanos: Filtrado y enmascaramiento lógico.

Pandas es lo suficientemente flexible para manejar cualquier tipo de dato, facilitando la interoperabilidad con otras bibliotecas y formatos.