# Qué es Pandas?
Pandas es una biblioteca de software de código abierto diseñada para la manipulación y el análisis de datos en Python. Es potente, flexible y fácil de usar.

**Con Pandas, puedes:**


1.   **Manipular datos:** Cargar datos desde fuentes como archivos CSV, bases de datos o incluso páginas web. Luego, puedes filtrar, ordenar, agregar o eliminar información.

2.  **Limpiar datos:** Manejar valores faltantes, errores tipográficos o información duplicada.

3. **Análisis rápido:** Calcular estadísticas como promedios, medianas o desviaciones estándar.

4. **Visualización de datos: **  Pandas trabaja muy bien con bibliotecas como Matplotlib y Seaborn para crear gráficos y visualizaciones.

**Estructuras de Datos de Pandas**


**DataFrame**: Una estructura bidimensional (similar a una tabla) con filas y columnas. Cada columna puede contener diferentes tipos de datos (números, texto, fechas, etc.).

**Series**: Una estructura unidimensional (como una lista) con etiquetas para cada valor. Puedes pensar en una serie como una columna individual de un DataFrame.

# PANDAS INICIO

## IMPORTAR LIBRERIA

In [None]:
import pandas as pd #importo pandas

## Pandas Series

### **CREO UNA SERIE**

In [None]:
notas=pd.Series([5,3,5,4,3,5,4,2,4,3,4],index=["Juan","Jeniffer","David","Pablo","Armando","Magdalena","Francesa","Pedro","Marcos","Javier","Lucia"],name='SerieX')

In [None]:
notas

Unnamed: 0,SerieX
Juan,5
Jeniffer,3
David,5
Pablo,4
Armando,3
Magdalena,5
Francesa,4
Pedro,2
Marcos,4
Javier,3


In [None]:
a = [5,3,5,4,3,5,4,2,4,3,4]

notas2 = pd.Series(a, index = ["Juan","Jeniffer","David","Pablo","Armando","Magdalena","Francesa","Pedro","Marcos","Javier","Lucia"],name='Nombres')

notas2

Unnamed: 0,Nombres
Juan,5
Jeniffer,3
David,5
Pablo,4
Armando,3
Magdalena,5
Francesa,4
Pedro,2
Marcos,4
Javier,3


Crear como **Diccionario**



También puedes usar un objeto clave/valor, como un diccionario, al crear una Serie.

Ejemplo

Crea una Serie simple de Pandas a partir de un diccionario:

In [None]:
calories = {"day1": 420, "day2": 380, "day3": 390}

calorias = pd.Series(calories,name='Calorias')

calorias


Unnamed: 0,Calorias
day1,420
day2,380
day3,390


### **ATRIBUTOS DE UNA SERIE**


In [None]:
notas=pd.Series([5,3,5,4,3,5,4,2,4,3,4],index=["Juan","Jeniffer","David","Pablo","Armando","Magdalena","Francesa","Pedro","Marcos","Javier","Lucia"])

In [None]:
notas.size

11

In [None]:
print(notas.index)

Index(['Juan', 'Jeniffer', 'David', 'Pablo', 'Armando', 'Magdalena',
       'Francesa', 'Pedro', 'Marcos', 'Javier', 'Lucia'],
      dtype='object')


In [None]:
print(notas.dtype)

int64


In [None]:
print(notas.values) #Arreglo de valores de la serie

[5 3 5 4 3 5 4 2 4 3 4]


### **CAMBIOS DE INDICE**

In [None]:
notas=pd.Series([5,3,5,4,3,2,4,2,4,3,4],index=["Juan","Jeniffer","David","Pablo","Armando","Magdalena","Francesa","Pedro","Marcos","Javier","Lucia"])

In [None]:
cambio_index=["Cuervo","Jeniffer","David","Pablo","Armando","Magdalena","Francesa","Pedro","Marcos","Javier","Lucia"]

notas_arregladas=pd.Series(notas,index=cambio_index)

notas_arregladas

Unnamed: 0,0
Cuervo,
Jeniffer,3.0
David,5.0
Pablo,4.0
Armando,3.0
Magdalena,2.0
Francesa,4.0
Pedro,2.0
Marcos,4.0
Javier,3.0


In [None]:
notas2=pd.Series([5,3,5,4,3,5,4,2,4,3,4])
notas2

Unnamed: 0,0
0,5
1,3
2,5
3,4
4,3
5,5
6,4
7,2
8,4
9,3


### **LIST COMPRENHENSION`**

```
# E`sto tiene formato de código`
```



In [None]:
notas3=pd.Series([i for i in range(0,10)])
notas3

Unnamed: 0,0
0,0
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9


### **ACCESO A ELEMENTOS DE UNA SERIE**

In [None]:
import pandas as pd
s = pd.Series(['Matemáticas', 'Historia', 'Economía', 'Programación', 'Inglés'], dtype='string')
print(s)

0     Matemáticas
1        Historia
2        Economía
3    Programación
4          Inglés
dtype: string


ACCESO POR PORCION

In [None]:
#s[i] : Devuelve el elemento que ocupa la posición i+1 en la serie s.

print("s[0]"+"   "+s[0])
print("s[0:2] ")
print(s[0:2])
print("s[0:] ")
print(s[0:])
#s[posiciones]: Devuelve otra serie con los elementos que ocupan las posiciones de la lista posiciones.


s[0]   Matemáticas
s[0:2] 
0    Matemáticas
1       Historia
dtype: string
s[0:] 
0     Matemáticas
1        Historia
2        Economía
3    Programación
4          Inglés
dtype: string


ACCESO POR INDICE

In [None]:
s=pd.Series(['Programación', 'Matemáticas'])
s
#s[nombre] : Devuelve el elemento con el nombre nombre en el índice.

#s[nombres] : Devuelve otra serie con los elementos correspondientes a los nombres indicadas en la lista nombres en el índice


Unnamed: 0,0
0,Programación
1,Matemáticas


RESUMEN DESCRIPTIVO - DE UNA SERIE

# Funciones comunes para Series en Pandas

A continuación, se describen algunas funciones útiles para trabajar con objetos de tipo **Series** en la biblioteca **pandas**.

---

## `s.count()`
Devuelve el número de elementos que **no son nulos** ni **NaN** en la serie `s`.

---

## `s.sum()`
- Devuelve la **suma** de los datos de la serie `s` si son numéricos.
- Devuelve la **concatenación** de los datos si son cadenas (`str`).

---

## `s.cumsum()`
Devuelve una nueva serie con la **suma acumulada** de los datos en la serie `s` (solo para datos numéricos).

---

## `s.value_counts()`
Devuelve una serie con la **frecuencia** (número de repeticiones) de cada valor en la serie `s`.

---

## `s.min()`
Devuelve el **valor mínimo** de los datos en la serie `s`.

---

## `s.max()`
Devuelve el **valor máximo** de los datos en la serie `s`.

---

## `s.mean()`
Devuelve la **media** de los datos en la serie `s` (solo para datos numéricos).

---

## `s.var()`
Devuelve la **varianza** de los datos en la serie `s` (solo para datos numéricos).

---

## `s.std()`
Devuelve la **desviación típica** de los datos en la serie `s` (solo para datos numéricos).

---

## `s.describe()`
Devuelve una serie con un **resumen descriptivo** de los datos, que incluye:
- Número de elementos
- Suma
- Mínimo
- Máximo
- Media
- Desviación típica
- Cuartiles


In [None]:
import pandas as pd
s=pd.Series([1, 1, 1, 1, 2, 2, 2, 3, 3, 4])

In [None]:
s.count() # sumo todo
s[0:1].count() #sumo algunas posiciones

1

In [None]:
s.sum()

20

In [None]:
s.cumsum()

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,6
5,8
6,10
7,13
8,16
9,20


In [None]:
s.value_counts()  # Frecuencias absolutas

Unnamed: 0,count
1,4
2,3
3,2
4,1


In [None]:
s.value_counts(normalize=True)  # Frecuencias relativas

Unnamed: 0,proportion
1,0.4
2,0.3
3,0.2
4,0.1


In [None]:
s.min()  # Mínimo
1
s.max()  # Máximo
4
s.mean()  # Media
2.0
s.var()  # Varianza
1.1111111111111112
s.std()  # Desviación típica


1.0540925533894598

In [None]:
s.describe()

Unnamed: 0,0
count,10.0
mean,2.0
std,1.054093
min,1.0
25%,1.0
50%,2.0
75%,2.75
max,4.0


In [None]:
# Conteo de valores no tiene en cuenta los NaN
s.value_counts()

Unnamed: 0,count
1,4
2,3
3,2
4,1


In [None]:
s.isnull().sum() # cuenta valores nulos

0


### Aplicar operaciones a una serie

Los operadores binarios (+, *, /, etc.) pueden utilizarse con una serie, y devuelven otra serie con el resultado de aplicar la operación a cada elemento de la serie.



### FUNCIONES

In [None]:
# s.apply(f) : Devuelve una serie con el resultado de aplicar la función f a cada uno de los elementos de la serie s.


In [None]:
import pandas as pd
from math import log
s = pd.Series([1, 2, 3, 4])
s.apply(log)



Unnamed: 0,0
0,0.0
1,0.693147
2,1.098612
3,1.386294


In [None]:
s = pd.Series(['a', 'b', 'c'])
s.apply(str.upper)


Unnamed: 0,0
0,A
1,B
2,C


In [None]:
# prompt: # s.apply(f) : Devuelve una serie con el resultado de aplicar la función f a cada uno de los elementos de la serie s.

import pandas as pd

# Ejemplo 1: Función lambda para duplicar los valores
s = pd.Series([1, 2, 3, 4, 5])
s_duplicado = s.apply(lambda x: x * 2)
print("Ejemplo 1:\n",s_duplicado)


# Ejemplo 2: Función definida para convertir números a cadenas
def convertir_a_cadena(numero):
  return str(numero) + " cadena"

s_cadena = s.apply(convertir_a_cadena)
print("\nEjemplo 2:\n",s_cadena)


# Ejemplo 3: Función para categorizar valores
def categorizar_valor(valor):
    if valor < 3:
        return "Bajo"
    elif valor < 5 :
        return "Medio"
    else:
        return "Alto"

s_categorizado = s.apply(categorizar_valor)
print("\nEjemplo 3:\n", s_categorizado)

Ejemplo 1:
 0     2
1     4
2     6
3     8
4    10
dtype: int64

Ejemplo 2:
 0    1 cadena
1    2 cadena
2    3 cadena
3    4 cadena
4    5 cadena
dtype: object

Ejemplo 3:
 0     Bajo
1     Bajo
2    Medio
3    Medio
4     Alto
dtype: object


### FILTROS

s[condicion] : Devuelve una serie con los elementos de la serie s que se corresponden con el valor True de la lista booleana condicion. condicion debe ser una lista de valores booleanos de la misma longitud que la serie.

In [None]:
import pandas as pd
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
s

Unnamed: 0,0
Matemáticas,6.0
Economía,4.5
Programación,8.5


In [None]:
s[s>5]

Unnamed: 0,0
Matemáticas,6.0
Programación,8.5


### ORDENAR UNA SERIE

1. s.sort_values(ascending=booleano) : Devuelve la serie que resulta de ordenar los valores la serie s. Si argumento del parámetro ascending es True el orden es creciente y si es False decreciente.

2. df.sort_index(ascending=booleano) : Devuelve la serie que resulta de ordenar el índice de la serie s. Si el argumento del parámetro ascending es True el orden es creciente y si es False decreciente.

In [None]:
import pandas as pd
s = pd.Series({'Matemáticas': 4.0,  'zconomía': 6.0, 'Programación': 8.5})
s

Unnamed: 0,0
Matemáticas,4.0
zconomía,6.0
Programación,8.5


In [None]:
print(s.sort_values()) # ordena por valores

Economía        4.5
Matemáticas     6.0
Programación    8.5
dtype: float64


In [None]:
print(s.sort_index(ascending = False)) # ordeno decreciente por index

Programación    8.5
Matemáticas     6.0
Economía        4.5
dtype: float64
