Pandas es una biblioteca de Python para el análisis y manipulación de datos. Es conocida por sus estructuras de datos flexibles y potentes, como DataFrames y Series, que hacen que el trabajo con datos tabulares sea eficiente y sencillo. 

## Tipos de datos de Pandas

Pandas dispone de tres estructuras de datos diferentes:

- Series: Estructura de una dimensión.
- DataFrame: Estructura de dos dimensiones (tablas).
- Panel: Estructura de tres dimensiones (cubos).

Estas estructuras se construyen a partir de arrays de la librería NumPy, añadiendo nuevas funcionalidades.

### Series

Una Serie es una estructura de datos unidimensional en Pandas, similar a una columna en una tabla. Una Serie contiene una lista de elementos de cualquier tipo de datos (números, cadenas, etc.) y está indexada. Cada elemento en una Serie tiene una etiqueta asociada (el índice), que puede ser un número entero o una etiqueta personalizada.

Son homogéneas, es decir, **sus elementos tienen que ser del mismo tipo**, y ***su tamaño es inmutable***, es decir, no se puede cambiar, aunque si su contenido.

**Dispone de un índice que asocia un nombre a cada elemento del la serie, a través de la cuál se accede al elemento.**

In [3]:
import pandas as pd

#### Creacion de una serie

- ***A partir de un array***

In [7]:
cities = ['Guadalajara', 'Monterrey', 'Puebla']

In [8]:
cities_pd = pd.Series(cities)
cities_pd

0    Guadalajara
1      Monterrey
2         Puebla
dtype: object

Nos arroja la columna con los valores ingresados en el array de python y a cada valor se le asigna un indice.

- ***A partir de un diccionario***

- Se crea una variable llamada `data` que sera un diccionario clave valor que contiene el nombre de la ciudad y la cantidad de poblacion.
- Se crea una nueva variable haciendo referecnia a que sera una serie de pandas en donde recibe como argumento la data previamente creada.
- Al imprimirlo pandas nos ordeno las columnas con su valores correspondientes.

In [11]:
data = {"Ciudad de México":22.5, "Guadalajara":5.3, "Monterrey":4., "Puebla":3, "Tijuana":2.1}
cities_population = pd.Series(data)
cities_population

Ciudad de México    22.5
Guadalajara          5.3
Monterrey            4.0
Puebla               3.0
Tijuana              2.1
dtype: float64

-  ***A partir de un indice personalizado***

Definiremos dos lista, una correspondera a los indices o en este caso la cantidad de poblacion, y el otro diccionario contendra los nombres de las variables.

In [12]:
cities = ["Ciudad de México", "Guadalajara", "Monterrey", "Puebla", "Tijuana"]
population = [22.5, 5.3, 4.3, 2.1, 1.8]

population_size = pd.Series(cities, population)
population_size

22.5    Ciudad de México
5.3          Guadalajara
4.3            Monterrey
2.1               Puebla
1.8              Tijuana
dtype: object

Esto tambien puede quedar de la siguiente manera:

In [13]:
population_size_ = pd.Series(["Ciudad de México", "Guadalajara", "Monterrey", "Puebla", "Tijuana"], index = [22.5, 5.3, 4.3, 2.1, 1.8])
population_size_

22.5    Ciudad de México
5.3          Guadalajara
4.3            Monterrey
2.1               Puebla
1.8              Tijuana
dtype: object

## Accediendo a los elementos de una serie

El acceso a los elementos de un objeto del tipo Series puede ser a través de posiciones o través de índices (nombres).

- **Acceso por posición**

Se realiza de forma similar a como se accede a los elementos de un array.

- `s[i]` : Devuelve el elemento que ocupa la posición i+1 en la serie s.
- `s[posiciones]`: Devuelve otra serie con los elementos que ocupan las posiciones de la lista posiciones.

- **Acceso por índice**

- `s[nombre]` : Devuelve el elemento con el nombre nombre en el índice.
- `s[nombres]` : Devuelve otra serie con los elementos correspondientes a los nombres indicadas en la lista nombres en el índice.

In [15]:
population_size[22.5]

'Ciudad de México'

En este caso nos arrojara un error por que no estamos entrando por indice de posicion si no que por indice definido.

In [18]:
population_size[0]

KeyError: 0

## Dataframes

Un DataFrame es una estructura de datos bidimensional en Pandas, similar a una tabla en una base de datos o una hoja de cálculo en Excel. Un DataFrame tiene filas y columnas, donde cada columna puede contener diferentes tipos de datos.

**Características principales:**

- Almacenamiento de datos tabulares: Permite almacenar datos organizados en filas y columnas, donde cada fila representa una observación y cada columna representa una variable.
- Etiquetado: Las filas y columnas están indexadas, lo que facilita el acceso a datos específicos.
- Heterogeneidad de datos: Puede almacenar diferentes tipos de datos en las columnas (números, cadenas de texto, fechas, etc.).
- Funcionalidades avanzadas: Ofrece una amplia gama de funciones para manipular, analizar y visualizar datos, como:
Selección y filtrado de datos.
- Agregación y transformación de datos.
- Combinación y unión de DataFrames.
- Creación de gráficos y diagramas.

## Creacion de dataframes

### A partir de un diccionario

> Los valores asociados a las claves del diccionario deben ser listas del mismo tamaño

In [20]:
data = {"Nombre": ["Juan", "María", "Pedro"],
        "Edad": [30, 25, 22],
        "Ciudad": ["Ciudad de México", "Guadalajara", "Monterrey"]}

user = pd.DataFrame(data)
print(user)
user

  Nombre  Edad            Ciudad
0   Juan    30  Ciudad de México
1  María    25       Guadalajara
2  Pedro    22         Monterrey


Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,30,Ciudad de México
1,María,25,Guadalajara
2,Pedro,22,Monterrey


### A partir de una lista de listas

Para crear un DataFrame a partir de una lista de listas con los datos de las columnas se utiliza el siguiente método:

- `DataFrame(data=listas, index=filas, columns=columnas, dtype=tipos)` : Devuelve un objeto del tipo DataFrame cuyas columnas son los valores de las listas de la lista listas, los nombres de filas indicados en la lista filas, los nombres de columnas indicados en la lista columnas y los tipos indicados en la lista tipos. La lista filas, tiene que tener el mismo tamaño que la lista listas mientras que las listas columnas y tipos tienen que tener el mismo tamaño que las listas anidadas en listas. Si no se pasa la lista de filas o de columnas se utilizan enteros empezando en 0. Si no se pasa la lista de tipos, se infiere.

In [21]:
data = [["Juan", 30, "Ciudad de México"],
        ["María", 25, "Guadalajara"],
        ["Pedro", 22, "Monterrey"]]

users_data = pd.DataFrame(data, columns=["Nombre", "Edad", "Ciudad"])
print(users_data)
users_data

  Nombre  Edad            Ciudad
0   Juan    30  Ciudad de México
1  María    25       Guadalajara
2  Pedro    22         Monterrey


Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,30,Ciudad de México
1,María,25,Guadalajara
2,Pedro,22,Monterrey


>Si las listas anidadas en listas no tienen el mismo tamaño, las listas menores se rellenan con valores NaN

**En resumen:**
- Series: Para datos unidimensionales (una variable o columna).
- DataFrames: Para datos bidimensionales (conjuntos de datos tabulares).

**La estructura de entrada para la creación de series y data frames es muy similar a un json.**