# Estructuras de datos en Pandas

La libreria de Pandas ofrece dos estructuras de datos fundamentales las Series y los DataFrame ambas estructuras se consideran escenciales para el manejo y analisis de datos con Python.

## Series

Podemos pensar en una serie de Pandas como si fuera una columna de excel o de una base de datos, es una estructura de datos unidimensional que se utiliza para almacenar y manipular datos.

Cada elemento de una Serie tiene una etiqueta, llamada "índice", que puede ser una etiqueta numérica o una etiqueta personalizada. Las Series pueden contener datos de diversos tipos, incluyendo números, cadenas de texto, fechas y más.

Una serie es un elemneto similar a un Array o una Lista de Python. 

**Podemos usar pandas para crear series de la siguiente forma**

Primero debemos instalar dentro de nuestro entorno de trabajo la libreria usando PIP

*pip install pandas*

Una vez que Pandas esté instalado, puedes comenzar a usarlo en tu código. Importando la biblioteca en tus scripts de Python de la siguiente manera:

In [1]:
#Se realiza la importación de la libreria a nuestro scrpit de python
import pandas as pd

Vamos a crear una serie a partir de una lista

In [2]:
#Para lo cual definiremos primero la lista usando Python

lista_e = [1,2,3,4,5,6]
print(lista_e)

[1, 2, 3, 4, 5, 6]


In [3]:
#Usando el constructor pd.Series() Pandas realiza la transformacion de nuestra variable lista_e en una serie 

serie_e = pd.Series(lista_e)
print(serie_e)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64


### Practiquemos la construcción de series con Pandas

**Ejercicio 1 (Creación de una Serie):**
Crea una Serie que contenga los siguientes nombres de ciudades: "Nueva York", "Los Ángeles", "Chicago", "Houston" y "Miami". Asigna un índice numérico a cada ciudad.

In [4]:
ciudades = pd.Series(["Nueva York", "Los Angeles", "Chicago", "Houston", "Miami"], index=[1,2,3,4,5])
print(ciudades)

1     Nueva York
2    Los Angeles
3        Chicago
4        Houston
5          Miami
dtype: object


**Ejercicio 2 (Acceso a Elementos):**
Accede al segundo elemento de la Serie creada en el ejercicio 1 y muestra el nombre de la ciudad.

In [5]:
ciudades[1]

'Nueva York'

**Ejercicio 3 (Operaciones Matemáticas):**
Crea una Serie con datos numéricos y realiza operaciones matemáticas como suma, resta y multiplicación en los elementos de la Serie.

In [6]:
numeros = pd.Series([1,2,3,4,5,6])
numeros

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

In [7]:
operacion = numeros[1] + numeros[5]
print(operacion)

8


**Ejercicio 4 (Filtrado de Datos):**
A partir de una Serie de números, filtra y muestra los valores mayores que 50.

In [8]:
secuencia = pd.Series([10,20,34,55,88,49,8,12])
secuencia

0    10
1    20
2    34
3    55
4    88
5    49
6     8
7    12
dtype: int64

In [10]:
filtro = secuencia[secuencia>50]
filtro

3    55
4    88
dtype: int64

**Ejercicio 5 (Cambio de Índice):**
Cambia el índice de la Serie del ejercicio 1 para que las ciudades tengan etiquetas personalizadas en lugar de índices numéricos.

In [11]:
ciudades

1     Nueva York
2    Los Angeles
3        Chicago
4        Houston
5          Miami
dtype: object

In [12]:
ciudades.index = ["NY", "LA", "CHI", "HOU", "MIA"]
ciudades

NY      Nueva York
LA     Los Angeles
CHI        Chicago
HOU        Houston
MIA          Miami
dtype: object

**Ejercicio 6 (Concatenación de Series):**
Crea dos Series separadas con datos relacionados (por ejemplo, una Serie de temperaturas y otra de precipitaciones). Luego, concaténalas en una sola Serie.

**Forma para concatenar**

In [13]:
#Creamos la primer serie (serie a)
s_a = pd.Series(["a","b","c"])
s_a

0    a
1    b
2    c
dtype: object

In [14]:
#creamosla segunda serie (serie b)
s_b = pd.Series(["d","e","f"])
s_b

0    d
1    e
2    f
dtype: object

**usando "+"**

In [15]:
concatenacion_1 = s_a + s_b
print(concatenacion_1)

0    ad
1    be
2    cf
dtype: object


**Usando el constructor pd.concat([])**

In [16]:
#usamos el constructor pd.conact([]) para concatenar la seria a y la serie b
con = pd.concat([s_a,s_b])
con

0    a
1    b
2    c
0    d
1    e
2    f
dtype: object

**Usando el metodo append**

In [17]:
concatenacion_2 = s_a.append(s_b)
concatenacion_2

0    a
1    b
2    c
0    d
1    e
2    f
dtype: object

In [18]:
precipitaciones = pd.Series(["PREC","30 mm", "300 mm", "700 mm", "1000 mm"])
precipitaciones

0       PREC
1      30 mm
2     300 mm
3     700 mm
4    1000 mm
dtype: object

In [19]:
temperatura = pd.Series(["TEMP", "30°", "45°", "25°","12°"])
temperatura

0    TEMP
1     30°
2     45°
3     25°
4     12°
dtype: object

In [20]:
ejercicio_concatenar = precipitaciones + "   " + temperatura
ejercicio_concatenar

0      PREC   TEMP
1      30 mm   30°
2     300 mm   45°
3     700 mm   25°
4    1000 mm   12°
dtype: object

**Ejercicio 7 (Ordenación de Datos):**
Crea una Serie desordenada de números y ordénala en orden ascendente.

In [21]:
num_random = pd.Series([9,10,8,12,3,4,2,0,1,7,5,11,6])
num_random

0      9
1     10
2      8
3     12
4      3
5      4
6      2
7      0
8      1
9      7
10     5
11    11
12     6
dtype: int64

In [22]:
num_random = num_random.sort_values(ascending=True)
num_random

7      0
8      1
6      2
4      3
5      4
10     5
12     6
9      7
2      8
0      9
1     10
11    11
3     12
dtype: int64

## DataFrames

Dentro de pandas un DataFrame es una estructura de datos bidimensional similara a una tabal de bases de datos o una tabala de excel. 

Un Pandas Data Frame está compuesto por filas y columnas, donde cada columna es una Serie, cada columna puede contener diferentes tipos de datos, pero todas las columnas dentro de un DataFrame deben tener la misma longitud.

Al igual que en una Serie, un DataFrame también tiene un índice que etiqueta las filas (puede ser un índice numérico o personalizado) y adicionalmente cada columna en un DataFrame tiene una etiqueta o nombre que permite identificar los datos contenidos en esa columna. Estas etiquetas suelen ser cadenas de texto.

Los DataFrames pueden contener datos de diversos tipos, incluyendo; números, cadenas de texto, fechas, valores nulos y otros tipos de datos, y pueden crecer o reducirse en tamaño en función de los datos que se les agreguen o eliminen. Podemos importar dataframes desde fuentes externas, como archivos CSV o bases de datos, y exportarse en diferentes formatos además de poder crearlos en Pandas desde un conjunto de datos, ya sea en forma de listas, diccionarios o desde una fuente externa, y utilizar la función pd.DataFrame() para convertir esos datos en un DataFrame.

Los DataFrames son ideales para trabajar con conjuntos de datos tabulares y realizar análisis de datos.

**Craer dataframes en Pandas**

Primero debemos instalar dentro de nuestro entorno de trabajo la libreria usando PIP

*pip install pandas *

Una vez que Pandas esté instalado, puedes comenzar a usarlo en tu código. Importando la biblioteca en tus scripts de Python de la siguiente manera:

In [2]:
#Se realiza la importación de la libreria a nuestro scrpit de python
import pandas as pd

In [3]:
# Creación de un DataFrame a partir de un diccionario de Series o listas
datos = {'Nombre': ["Victor", "Juan", "Arturo"], 'Edad': [25, 30, 35]}
df = pd.DataFrame(datos)
df

Unnamed: 0,Nombre,Edad
0,Victor,25
1,Juan,30
2,Arturo,35


In [None]:
# Creación de un DataFrame desde un archivo CSV
df = pd.read_csv('datos.csv')

In [27]:
# Creación de un DataFrame vacío
df_void = pd.DataFrame()
df_void

###Practiquemos la creación y uso de Data Frames

**Ejercicio 1 (Creación de un DataFrame):**
Crea un DataFrame que contenga información sobre personas, incluyendo columnas para "Nombre", "Edad", "Ciudad" y "Profesión". Los datos pueden ser ficticios.

In [4]:
personas = { "nombre":["Juan","Carlo","Maria"],"Edad": [38,28,23],"Ciudad":["Mexico","Rio", "Bogota"],"Profesion": ["programador", "ingeniero", "cientifica"]} 
personas

{'nombre': ['Juan', 'Carlo', 'Maria'],
 'Edad': [38, 28, 23],
 'Ciudad': ['Mexico', 'Rio', 'Bogota'],
 'Profesion': ['programador', 'ingeniero', 'cientifica']}

In [5]:
df_persona = pd.DataFrame(personas)
df_persona

Unnamed: 0,nombre,Edad,Ciudad,Profesion
0,Juan,38,Mexico,programador
1,Carlo,28,Rio,ingeniero
2,Maria,23,Bogota,cientifica


**Ejercicio 2 (Acceso a Datos):**
Accede a la columna "Edad" del DataFrame creado en el ejercicio 1 y muestra las edades de las personas.

In [30]:
df_persona["Edad"]

0    38
1    28
2    23
Name: Edad, dtype: int64

**Ejercicio 3 (Filtrado de Datos):**

Filtra el DataFrame para mostrar solo las personas que tienen más de 30 años.

In [31]:
mas_35 = df_persona[df_persona["Edad"] > 35]
mas_35

Unnamed: 0,nombre,Edad,Ciudad,Profesion
0,Juan,38,Mexico,programador


**Ejercicio 4 (Agregación de Datos):**
Calcula la media de las edades en el DataFrame.

In [32]:
df_persona["Edad"].median()

28.0

**Ejercicio 5 (Ordenación de Datos):**
Ordena el DataFrame en función de la columna "Nombre" en orden alfabético.

In [6]:
df_persona.sort_values(by=["nombre"], ascending=True)

Unnamed: 0,nombre,Edad,Ciudad,Profesion
1,Carlo,28,Rio,ingeniero
0,Juan,38,Mexico,programador
2,Maria,23,Bogota,cientifica
