# Pandas

Pandas is a powerful and flexible library built on top of NumPy, designed for data manipulation and analysis in Python. It introduces data structures like DataFrames and Series, which allow you to easily work with labeled and relational data. Pandas excels at tasks such as data cleaning, transformation, analysis, and visualization. It's a cornerstone of data science workflows.

> Pandas builds upon NumPy, providing higher-level data structures and tools specifically designed for working with tabular data. It simplifies tasks like data alignment, handling missing values, and performing complex data operations.

Pandas means Panel Data

In [1]:
import pandas as pd

Crea una Serie de pandas llamada amigos que use la lista `edades` como valores y la lista `nombres` como index.

Una Serie es una estructura unidimensional que puede contener cualquier tipo de datos (enteros, flotantes, cadenas, etc.). Cada elemento en una Serie tiene una etiqueta, conocida como índice.

Están siempre relacionados de 1 a 1.

In [2]:
nombres = ["John", "Jane", "Bob", "Alice"]
edades = [25, 30, 35, 40]

In [3]:
amigos = pd.Series(edades, index=nombres)
amigos

John     25
Jane     30
Bob      35
Alice    40
dtype: int64

Accede al valor asociado con en indice `John` en la serie amigos

In [4]:
amigos[0]

  amigos[0]


np.int64(25)

In [5]:
amigos["John"]

np.int64(25)

Obtener todos los valores de la Serie amigos:

In [6]:
print(f"values {amigos.values}")
print(f"indexes {amigos.index}")

values [25 30 35 40]
indexes Index(['John', 'Jane', 'Bob', 'Alice'], dtype='object')


#### Deep level -> ver todas las props y methods de un objeto en Py

In [7]:
print(f"el tipo de amigos es: {type(amigos)}")
properties = dir(amigos)
print("Las props son:")
for prop in properties:
    print(prop)

el tipo de amigos es: <class 'pandas.core.series.Series'>
Las props son:
Alice
Bob
Jane
John
T
_AXIS_LEN
_AXIS_ORDERS
_AXIS_TO_AXIS_NUMBER
_HANDLED_TYPES
__abs__
__add__
__and__
__annotations__
__array__
__array_priority__
__array_ufunc__
__bool__
__class__
__column_consortium_standard__
__contains__
__copy__
__deepcopy__
__delattr__
__delitem__
__dict__
__dir__
__divmod__
__doc__
__eq__
__finalize__
__float__
__floordiv__
__format__
__ge__
__getattr__
__getattribute__
__getitem__
__getstate__
__gt__
__hash__
__iadd__
__iand__
__ifloordiv__
__imod__
__imul__
__init__
__init_subclass__
__int__
__invert__
__ior__
__ipow__
__isub__
__iter__
__itruediv__
__ixor__
__le__
__len__
__lt__
__matmul__
__mod__
__module__
__mul__
__ne__
__neg__
__new__
__nonzero__
__or__
__pandas_priority__
__pos__
__pow__
__radd__
__rand__
__rdivmod__
__reduce__
__reduce_ex__
__repr__
__rfloordiv__
__rmatmul__
__rmod__
__rmul__
__ror__
__round__
__rpow__
__rsub__
__rtruediv__
__rxor__
__setattr__
__setitem__
__se

#### Continuamos con Pandas

Convertir la lista de strings `fechas_str` en un objeto Series de pandas de tipo datetime y asignarlo a la variable `cumple`

In [8]:
fechas_str = ['2022-01-01', '2022-02-01',
              '2022-03-01', '2022-04-01', '2022-09-01']

In [9]:
# Automatically creating a DatetimeIndex when appropriate to make time series analysis easier.
cumple = pd.to_datetime(fechas_str)

type(cumple)  # pandas.core.indexes.datetimes.DatetimeIndex

cumple

DatetimeIndex(['2022-01-01', '2022-02-01', '2022-03-01', '2022-04-01',
               '2022-09-01'],
              dtype='datetime64[ns]', freq=None)

Obtén el dia del mes para cada fecha en la Serie `cumple`

In [10]:
cumple.day  # nos da los Dias
month = cumple.month  # nos da los meses
month

Index([1, 2, 3, 4, 9], dtype='int32')

Obten el dia de la semana para cada fecha en la Serie cumple

In [11]:
cumple.dayofweek

Index([5, 1, 1, 4, 3], dtype='int32')

Formatear cada fecha eb ka Serie cumple al formato `mm/dd/yy`

In [12]:
cumple.strftime("%m/%d/%y")

Index(['01/01/22', '02/01/22', '03/01/22', '04/01/22', '09/01/22'], dtype='object')

Crea un DataFrame de pandas utilizando la lista de diccionarios futbolistas, estableciendo la columna `id` como index.

In [13]:
futbolistas = [
    {"id": 1, "nombre": "Lionel Messi", "horas_entrenamiento": 35,
        "posicion": "Delantero", "liga": 1},
    {"id": 2, "nombre": "Cristiano Ronaldo",
        "horas_entrenamiento": 34, "posicion": "Delantero", "liga": 2},
    {"id": 3, "nombre": "Neymar Silva", "horas_entrenamiento": 32,
        "posicion": "Delantero", "liga": 1},
    {"id": 4, "nombre": "Kylian Mbappé", "horas_entrenamiento": 33,
        "posicion": "Delantero", "liga": 3},
    {"id": 5, "nombre": "Kevin De Bruyne", "horas_entrenamiento": 30,
        "posicion": "Mediocampista", "liga": 2},
    {"id": 6, "nombre": "Virgil van Dijk",
        "horas_entrenamiento": 28, "posicion": "Defensa", "liga": 3},
    {"id": 7, "nombre": "Robert Lewandowski",
        "horas_entrenamiento": 31, "posicion": "Delantero", "liga": 1},
    {"id": 8, "nombre": "Sergio Ramos", "horas_entrenamiento": 27,
        "posicion": "Defensa", "liga": 2},
    {"id": 9, "nombre": "Mohamed Salah", "horas_entrenamiento": 29,
        "posicion": "Delantero", "liga": 3},
    {"id": 10, "nombre": "Sadio Mané", "horas_entrenamiento": 26,
        "posicion": "Delantero", "liga": 1},
    {"id": 11, "nombre": "Manuel Neuer", "horas_entrenamiento": 25,
        "posicion": "Portero", "liga": 2},
    {"id": 12, "nombre": "Joshua Kimmich", "horas_entrenamiento": 24,
        "posicion": "Mediocampista", "liga": 3},
    {"id": 13, "nombre": "Thomas Müller", "horas_entrenamiento": 23,
        "posicion": "Delantero", "liga": 1},
    {"id": 14, "nombre": "Toni Kroos", "horas_entrenamiento": 22,
        "posicion": "Mediocampista", "liga": 2},
    {"id": 15, "nombre": "Casemiro", "horas_entrenamiento": 21,
        "posicion": "Mediocampista", "liga": 3},
    {"id": 16, "nombre": "Paulo Dybala", "horas_entrenamiento": 30,
        "posicion": "Delantero", "liga": 1},
    {"id": 17, "nombre": "Alisson Becker",
        "horas_entrenamiento": 28, "posicion": "Portero", "liga": 2},
    {"id": 18, "nombre": "Heung-min Son", "horas_entrenamiento": 29,
        "posicion": "Delantero", "liga": 3},
    {"id": 19, "nombre": "Erling Haaland", "horas_entrenamiento": 33,
        "posicion": "Delantero", "liga": 1},
    {"id": 20, "nombre": "Jan Oblak", "horas_entrenamiento": 27,
        "posicion": "Portero", "liga": 2}
]

In [14]:
futbolistas = pd.DataFrame(futbolistas).set_index("id")
futbolistas

Unnamed: 0_level_0,nombre,horas_entrenamiento,posicion,liga
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Lionel Messi,35,Delantero,1
2,Cristiano Ronaldo,34,Delantero,2
3,Neymar Silva,32,Delantero,1
4,Kylian Mbappé,33,Delantero,3
5,Kevin De Bruyne,30,Mediocampista,2
6,Virgil van Dijk,28,Defensa,3
7,Robert Lewandowski,31,Delantero,1
8,Sergio Ramos,27,Defensa,2
9,Mohamed Salah,29,Delantero,3
10,Sadio Mané,26,Delantero,1


Selecciona las columnas `nombre` y `posicion` del DataFrame

In [15]:
futbolistas[["nombre", "posicion"]]

Unnamed: 0_level_0,nombre,posicion
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Lionel Messi,Delantero
2,Cristiano Ronaldo,Delantero
3,Neymar Silva,Delantero
4,Kylian Mbappé,Delantero
5,Kevin De Bruyne,Mediocampista
6,Virgil van Dijk,Defensa
7,Robert Lewandowski,Delantero
8,Sergio Ramos,Defensa
9,Mohamed Salah,Delantero
10,Sadio Mané,Delantero


Selecciona las filas con indice 1 y 2 y las columnas `nombre` y `horas_entrenamiento`

In [16]:
futbolistas.loc[[1, 2]]  # ids 1 y 2

futbolistas.loc[[1, 2], ["nombre"]]  # ids 1 y 2 el nombre

Unnamed: 0_level_0,nombre
id,Unnamed: 1_level_1
1,Lionel Messi
2,Cristiano Ronaldo


Selecciona las filas en las posiciones 1,3 y 4 y las columnas en las posiciones 0 y 2

In [17]:
futbolistas.iloc[[0, 2, 3], [0, 2]]
# iloc trae las filas y las columnas especificadas en base 0, primero [filas], luego [columnas]

Unnamed: 0_level_0,nombre,posicion
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Lionel Messi,Delantero
3,Neymar Silva,Delantero
4,Kylian Mbappé,Delantero


Calcula el promedio de las horas de entrenamiento agrupado por la columna `posicion`

In [18]:
most_train = futbolistas.groupby('posicion')['horas_entrenamiento'].mean()
# agrupa por posicion y calcula la media de horas_entrenamiento

In [19]:
most_train.sort_values(ascending=False)

# los mas que entrenan son los delanteros, seguido de los defensas y luego los porteros y mediocampistas pff

posicion
Delantero        30.454545
Defensa          27.500000
Portero          26.666667
Mediocampista    24.250000
Name: horas_entrenamiento, dtype: float64

Crea una tabla pivote (`pivot_table`) en el DataFrame futbolistas donde se muestre el mínimo de horas de entrenamiento para cada posicion y liga.


Tablas dinámicas en Pandas:
It refers to the flexibility of the table's structure, allowing you to easily change the index, columns, and values to analyze the data in different ways.

In [20]:
futbolistas.pivot_table(index='posicion', values=[
                        'horas_entrenamiento'], columns='liga', aggfunc='min')

Unnamed: 0_level_0,horas_entrenamiento,horas_entrenamiento,horas_entrenamiento
liga,1,2,3
posicion,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Defensa,,27.0,28.0
Delantero,23.0,34.0,29.0
Mediocampista,,22.0,21.0
Portero,,25.0,
