# Pandas

- Pandas es una librería para manipular y analizar datos.
- Es una interfaz de alto nivel para procesar datos tabulares en varias formatos.
- Proporciona una amplia gama de herramientas para leer y procesar datos.
- Está diseñado para ser rápido, eficiente y fácil de usar.

In [None]:
import numpy as np
import pandas as pd

## Cargar datos des un archivo
### cargar un archivo csv

In [None]:
df = pd.read_csv('nba_players.csv')
df.head()
# Tambien se pueden cargar solo cietos campos
#df = pd.read_csv('nba_players.csv', usecols=['Name', 'Age'])
#df.head()

### Lectura de datos de un dataframe

In [None]:
'''
Muestra las cabeceres del dataframe df
'''

In [None]:
'''
Muestra las columnas Name y Age del dataframe df
'''

In [None]:
'''
Muestra las primeras 5 filas del dataframe df
'''

In [None]:
'''
Muestra 10 filas del dataframe df
'''

### Mostrar las filas en función de una condición

In [None]:
'''
Muesrta las primeras los jugadores que tengan una edad igual o mayor a 39
'''

In [None]:
'''
Muestra los jugadores de los Minnesota Timberwolves
'''

#### Operaciones con los datos

In [None]:
'''
Muestra el dataframe ordenado por el atributo Name
'''

In [None]:
'''
Muestra el dataframe ordenado por el atributo Name y Team
'''

In [None]:
'''
Ordena alfabetiticamente los equipos y dentro de cada equipo ordena alfabeticamente por nombre (descendente)
'''

#### Modificar el dataframe

In [None]:
'''
Añade una columna al dataframe df con el año de nacimiento del jugador
'''

In [None]:
'''
Elimina la columna Birth del dataframe df
'''

#### Reordenar columnas

In [None]:
# Ejemplo de reordenamiento de columnas
df1 = df[['Name', 'Position', 'Team', 'Salary','Number', 'Age','Weight', 'Height', 'College']]
df1.head()

In [None]:
'''
Reordena las columnas del dataframe df2 (elige tú el orden que quieras)
'''

#### Guardar los datos en un archivo csv

In [None]:
# guarda el dataframe df2 en un archivo csv

#### Filtrando datos

In [None]:
'''
Carga el dataframe de jugadores en df
filtra los jugadores que tengan de la universidad de Minnesota
'''

In [None]:
'''
Filtra de los Atlanta Hawks los jugadores con mas de 30 años
'''

## Expresiones regulares


Las expresiones regulares son una forma de escribir un patrón de caracteres que se puede usar para buscar una cadena de texto.


In [None]:
'''
Busca los jugadores que se llamen James
'''

In [None]:
'''
Busca los jugadores que se llamen James como primer nombre
'''

In [None]:
'''
Busca los jugadores que se llamen James como primer nombre (ignora mayusculas)
'''

## Cambios condicionales

In [None]:
'''
Busca los jugadores del Boston Celtics y cambialo por Boston Celtics CocaCola
'''
#df.loc[df['Team'] == 'Boston Celtics', 'Team'] = 'Boston Celtics CocaCola'
df.loc[df['Team'].str.contains(r'Celtics\s')]

## Funciones de agregación

In [None]:
'''
Agrupa los jugadores por universidad y suma su salario
'''

In [None]:
'''
Agrupa los jugadores por universidad y suma su salario y ordenalos por salario
'''

In [None]:
'''
Agrupamos los jugadores por universidad y contabilizamos cuantos jugadores hay en cada una
'''

### Trabajando con cantidades grandes de datos

In [None]:
import pandas as pd
for df in pd.read_csv('nba_players.csv', chunksize=5):
    print(df)

## Creación de objetos
### Series
- Una serie es un array unidimensional de datos que puede contener cualquier tipo de datos.
- Las etiquetas también son conocidas como indices.

In [None]:
'''
Define una serie de pandas con los valores [1,3,5,7,6,8]  y los indices [a,b,c,d,e,f]
'''

In [None]:
'''
Define el mismo array que anter pero ahora no indiques los indices.
'''

Como se puede ver, la serie es un array de datos y al no indicar una etiqueta, se asigna una etiqueta por defecto.

Ejemplo:
s = pd.Series(data, index=index)
data puede ser del tipo:
- Diccionario python
- ndarray
- un escalar




In [None]:
'''
Define una serie a pasando por parámetro un diccionario con los valores y los indices.
'''

In [None]:
'''
Define una serie a1 pasando por parámetro un ndarray con los valores y opcionalmente los indices.
'''

In [None]:
'''
Define una serie a2 pasando por parámetro un escalar.
'''


#### Series como Arrays

Las Series actuan muy parecidas a un ndarray, y son un argumento válido para muchas funciones de NumPy. Sin embargo, operaciones como slicing también seleccionarán el índice.

In [None]:
'''
Dada la serie b, obtén el valor de la posición 'b'.
'''


In [None]:
'''
Dada la serie b3, obtén el valor de las tres últimas posiciones 
'''

In [None]:
'''
Dada la serie b4, obten los elementos que sean mayores que 5.
'''

In [None]:
'''
Dada la serie b5, obten los elementos que sean mayores que 5 y menores que 7.
'''

In [None]:
'''
Dada la serie b6, obten los elementos correspondientes a los índices 'b' y 'c'.
'''

In [None]:
'''
Dada la serie b7, mapea los elementos de la serie con una función. (mulpliplicar por 2, por ejemplo)
'''

Podemos consultar el tipo de datos de una serie con dtype, tal como se hacía en numpy.

In [None]:
'''
Define una serie c de tipo float64 y muestra el tipo de dato de los elementos.
'''

Si lo que queremos es obtener el array tal cual, podemos usar el método array.

In [None]:
'''
Define una serie c1 de tipo float64 y muestra el array de datos.
'''

#### Series como diccionarios

También podemos entender una serie como un diccionario.

In [None]:
'''
Dado una serie d, obtén el valor de la posición 'f'.
'''

In [None]:
# Si el índice no existe, se devuelve error
#print(d['g'])

### Head and tail

- head: devuelve los primeros n elementos de la serie.
- tail: devuelve los últimos n elementos de la serie.

In [None]:
'''
Genera un dataset con 25 valores aleatorios. Los valores se generan entre 0 y 1.
'''

In [None]:
'''
muestra los primers 5 valores de la serie.
'''

In [None]:
'''
Muestra los últimos 5 valores de la serie.
'''

### DataFrame

In [None]:
'''
Define un dataframe con dos columnas, 5 filas y valores aleatorios.
'''

In [None]:
'''
Define un dataframe partiendo de un diccionario.
'''

In [None]:
'''
Define un dataframe partiendo de un numpy ndarray.
'''

In [None]:
'''
Muestra las columnas del dataframe del ejercicio anterior.
'''

##### Seleccion por posición

En un array o un dataframe, podemos seleccionar uno o varios elementos por su posición.

In [None]:
'''
Define un dataframe de valores enteros con 4 columnas y 5 filas. A continuación seleciona los elementos de la posición 3.
'''

Como hemos venido viendo hasta ahora, podemos emplear slices con iloc.

In [None]:
'''
Define un dataframe de valores enteros con 4 columnas y 5 filas. A continuación seleciona los elementos de la posición 3 y 4.
'''