# Introducción a Pandas

Pandas es una poderosa y popular librería para trabajar con datos en Python. Algunos puntos clave a cubrir al introducir Pandas incluyen:

1. Pandas proporciona una serie de estructuras de datos para trabajar con datos tabulares, incluyendo el DataFrame, que es similar a una hoja de cálculo de Excel, y la Serie, que es un array unidimensional de datos.

2. Pandas permite cargar, manipular y analizar fácilmente datos de una variedad de fuentes, incluyendo archivos CSV y Excel, bases de datos SQL e incluso el portapapeles.

3. Pandas incluye una amplia gama de funciones y métodos para limpiar, transformar y resumir datos, así como para visualizar y trazar datos.

4. Pandas se integra perfectamente con otras librerías populares de Python, como Numpy, Matplotlib y Scikit-learn, para permitir capacidades aún más potentes de análisis de datos y aprendizaje automático.

5. Por último, es importante señalar que Pandas es particularmente adecuado para trabajar con conjuntos de datos grandes y complejos, y puede ser mucho más eficiente y conveniente que trabajar con datos en bruto en otros formatos.

## Estructuras de datos de Pandas

Hay dos estructuras de datos principales en Pandas: Series y DataFrame.

Una Serie es un array unidimensional etiquetado que puede contener cualquier tipo de datos.

Es similar a una columna en una hoja de cálculo de Excel o a un campo en una tabla de una base de datos.

Una Serie se crea pasando una lista o array de datos y un índice opcional al constructor Serie:

In [8]:
import pandas as pd
import numpy as np


data = [1, 2, 3, 4]
index = ['a', 'b', 'c', 'd']

s = pd.Series(data, index=index)
s


a    1
b    2
c    3
d    4
dtype: int64

Un DataFrame es una estructura de datos bidimensional etiquetada con columnas. Es similar a una hoja de cálculo o una tabla SQL. Un DataFrame se puede crear a partir de una variedad de fuentes, incluidas las listas y los diccionarios de Series, los diccionarios de listas y las matrices NumPy.

In [9]:
data = {
        'Altura': pd.Series([1,2,3], index=['b', 'c', 'a']), 
        'Peso': pd.Series([4,5,6], index=['a', 'b', 'c'])
    }

df = pd.DataFrame(data)
df

Unnamed: 0,Altura,Peso
a,3,4
b,1,5
c,2,6


### Pandas Series

Hay varias formas de crear una Serie de Pandas:

1. Desde una lista o array:

In [10]:
data = ['Pedro', 'Juan', 'Ana', 'Maria']

serie = pd.Series(data)
serie

0    Pedro
1     Juan
2      Ana
3    Maria
dtype: object

2. Desde un dictionario:

In [11]:
data = { 'Pedro': 12, 'Juan': 14, 'Ana': 13, 'Maria': 12}

serie = pd.Series(data)
serie


Pedro    12
Juan     14
Ana      13
Maria    12
dtype: int64

In [12]:
data = { 'Pedro': [ 6,7.5,8], 'Juan': [ 9,9,10], 'Ana': [5,6,7], 'Maria': [4,7,5] }

serie = pd.Series(data)
serie


Pedro    [6, 7.5, 8]
Juan      [9, 9, 10]
Ana        [5, 6, 7]
Maria      [4, 7, 5]
dtype: object

3. Con un valor escalar:

In [14]:
serie = pd.Series(0, index=[0,1,2,3,4,5])
serie

0    0
1    0
2    0
3    0
4    0
5    0
dtype: int64

In [15]:
serie = pd.Series(0, index=['a','b','c','d','e'])
serie

a    0
b    0
c    0
d    0
e    0
dtype: int64

In [16]:
serie = pd.Series(10, index=range(6))
serie

0    10
1    10
2    10
3    10
4    10
5    10
dtype: int64

4. Desde un NumPy array:

In [26]:
import numpy as np
data = np.random.randint(0,100, 10)

serie = pd.Series(data)
print(serie)
serie[0]

serie = pd.Series(data, index=range(10,20))
print(serie)
serie[16]


10    32
11    69
12     7
13    10
14    13
15    52
16    66
17    34
18    35
19    79
dtype: int64


66

### Pandas DataFrames

In [27]:
# Crea un DataFrame desde un diccionario de listas
data = { 'Pedro': [ 6,7.5,8], 'Juan': [ 9,9,10], 'Ana': [5,6,7], 'Maria': [4,7,5] }

df = pd.DataFrame(data)
df


Unnamed: 0,Pedro,Juan,Ana,Maria
0,6.0,9,5,4
1,7.5,9,6,7
2,8.0,10,7,5


In [38]:
# Crea un DataFrame desde un diccionario de listas especificando el índice
nombres = ['Pedro', 'Juan', 'Ana', 'María']

data = {
    'altura': [160, 170, 155, 160],
    'peso': [ 70, 65, 75, 65],
    'edad': [ 19, 18, 19, 20]
}

df = pd. DataFrame(data, index=nombres)
#print(df)
#print('\n')
#print(df.loc['Ana'])


# Crea un DataFrame desde un diccionario de pd.Series
data = {
    'altura': pd.Series([160, 170, 155, 160], index=['Pedro', 'Juan', 'Ana', 'María']),
    'peso': pd.Series([ 70, 65, 75, 65], index=['Pedro', 'Juan', 'Ana', 'María']),
    'edad': pd.Series([ 19, 18, 19, 20], index=['Pedro', 'Juan', 'Ana', 'María'])
}

data_2 = {
    'altura': pd.Series([160, 170, 155, 160], index=['Pedro', 'Juan', 'Ana', 'María']),
    'peso': pd.Series([ 70, 65, 75, 65], index=['Juan','Pedro' ,'Ana', 'María']),
    'edad': pd.Series([ 19, 18, 19, 20], index=['Pedro', 'Juan', 'Ana', 'María'])
}

df = pd.DataFrame(data)
df_2 = pd.DataFrame(data_2)

print(df)
print(df_2)




       altura  peso  edad
Pedro     160    70    19
Juan      170    65    18
Ana       155    75    19
María     160    65    20
       altura  peso  edad
Ana       155    75    19
Juan      170    70    18
María     160    65    20
Pedro     160    65    19


Hay muchas formas de crear un DataFrame de Pandas. Algunos métodos comunes incluyen:

1. Desde un NumPy array


In [41]:
import numpy as np

array = np.random.randint(0,1000, (5,6))

df = pd.DataFrame(array)
df



Unnamed: 0,0,1,2,3,4,5
0,842,9,591,814,310,283
1,265,433,628,114,504,844
2,589,667,892,635,643,20
3,859,364,179,713,785,681
4,932,488,174,918,856,914


2. Desde un dictionario de listas o NumPy arrays


In [42]:
import numpy as np

data = { 'Pedro': [ 6,7.5,8], 'Juan': [ 9,9,10], 'Ana': [5,6,7], 'Maria': [4,7,5] }

df = pd.DataFrame(data)
df




Unnamed: 0,Pedro,Juan,Ana,Maria
0,6.0,9,5,4
1,7.5,9,6,7
2,8.0,10,7,5


3. Desde una lista de dictionarios

In [44]:
data = [
    { 'nombre': 'Pedro', 'edad': 18, 'altura': 180},
    { 'nombre': 'Ana', 'edad': 19, 'altura': 165},
    { 'nombre': 'Juan', 'edad': 17, 'altura': 175},
    { 'nombre': 'Maria', 'edad': 16, 'altura': 170},
]

df = pd.DataFrame(data)
df


Unnamed: 0,nombre,edad,altura
0,Pedro,18,180
1,Ana,19,165
2,Juan,17,175
3,Maria,16,170


4. Desde una lista de Series

In [45]:
data = [
    pd.Series([1,2,3], index=['a', 'b', 'c']),
    pd.Series([10,20,30], index=['a', 'b', 'c']),
    pd.Series(['A','B','C'], index=['a', 'b', 'c']),
    pd.Series([1.0,2.5,3.0], index=['a', 'b', 'c']),
]

df = pd.DataFrame(data)
df

Unnamed: 0,a,b,c
0,1,2,3
1,10,20,30
2,A,B,C
3,1.0,2.5,3.0


In [51]:
nombres = ['Pedro', 'Ana', 'Juan', 'Maria']
data = [
    pd.Series([75,170,21], index=['peso', 'altura', 'edad']),
    pd.Series([70,170,30], index=['peso', 'altura', 'edad']),
    pd.Series([65,170,20], index=['peso', 'altura', 'edad']),
    pd.Series([70,170,19], index=['peso', 'altura', 'edad']),
]

df = pd.DataFrame(data, index=nombres)
df

Unnamed: 0,peso,altura,edad
Pedro,75,170,21
Ana,70,170,30
Juan,65,170,20
Maria,70,170,19


5. Desde un CSV file


In [None]:
# Crea un DataFrame desde un CSV file
df = pd.read_csv('employees.csv', encoding='latin1')
df


In [60]:
#  Guarda el DataFrame en un CSV file

# Econdings más comunes
# ASCII: US-ASCII, ISO 646, ANSI_X3.4-1968, …
# ISO-8859-1: Latin-1, iso88591, …
# UTF-8: utf8, UTF_8, …

df.to_csv('employees_2.csv', encoding='latin1', index=False, sep='\t')


In [68]:
df = pd.read_csv('employees_2.csv', encoding='latin1', sep='\t')


# Ver las 5 primeras filas
df.head()

# ver las 10 primeras filas
df.head(10)


# Ver las 5 últimas filas
df.tail()

# Ver las 10 últimas filas
df.tail(10)


Unnamed: 0,EEID,Full Name,Job Title,Department,Business Unit,Gender,Ethnicity,Age,Hire Date,Annual Salary,Bonus %,Country,City,Exit Date
990,E01578,Anthony Hong,Sr. Manger,IT,Research & Development,Male,Asian,37,11/29/2010,"$146,961",11%,United States,Columbus,
991,E03430,Leo Herrera,Sr. Business Partner,Human Resources,Research & Development,Male,Latino,48,4/22/1998,"$85,369",0%,Brazil,Manaus,11/27/2004
992,E03058,Robert Wright,Technical Architect,IT,Manufacturing,Male,Caucasian,30,6/14/2015,"$67,489",0%,United States,Chicago,
993,E04762,Audrey Richardson,Director,IT,Manufacturing,Female,Caucasian,46,10/6/2018,"$166,259",17%,United States,Chicago,
994,E01148,Scarlett Kumar,Systems Analyst,IT,Corporate,Female,Asian,55,1/7/2009,"$47,032",0%,United States,Columbus,
995,E03094,Wesley Young,Sr. Analyst,Marketing,Speciality Products,Male,Caucasian,33,9/18/2016,"$98,427",0%,United States,Columbus,
996,E01909,Lillian Khan,Analyst,Finance,Speciality Products,Female,Asian,44,5/31/2010,"$47,387",0%,China,Chengdu,1/8/2018
997,E04398,Oliver Yang,Director,Marketing,Speciality Products,Male,Asian,31,6/10/2019,"$176,710",15%,United States,Miami,
998,E02521,Lily Nguyen,Sr. Analyst,Finance,Speciality Products,Female,Asian,33,1/28/2012,"$95,960",0%,China,Chengdu,
999,E03545,Sofia Cheng,Vice President,Accounting,Corporate,Female,Asian,63,7/26/2020,"$216,195",31%,United States,Miami,


6. Desde un excel file

In [74]:
df = pd.read_excel('employees.xlsx')
df

Unnamed: 0,EEID,Full Name,Job Title,Department,Business Unit,Gender,Ethnicity,Age,Hire Date,Annual Salary,Bonus %,Country,City,Exit Date
0,E02387,Emily Davis,Sr. Manger,IT,Research & Development,Female,Black,55,2016-04-08,141604,0.15,United States,Seattle,2021-10-16
1,E04105,Theodore Dinh,Technical Architect,IT,Manufacturing,Male,Asian,59,1997-11-29,99975,0.00,China,Chongqing,NaT
2,E02572,Luna Sanders,Director,Finance,Speciality Products,Female,Caucasian,50,2006-10-26,163099,0.20,United States,Chicago,NaT
3,E02832,Penelope Jordan,Computer Systems Manager,IT,Manufacturing,Female,Caucasian,26,2019-09-27,84913,0.07,United States,Chicago,NaT
4,E01639,Austin Vo,Sr. Analyst,Finance,Manufacturing,Male,Asian,55,1995-11-20,95409,0.00,United States,Phoenix,NaT
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,E03094,Wesley Young,Sr. Analyst,Marketing,Speciality Products,Male,Caucasian,33,2016-09-18,98427,0.00,United States,Columbus,NaT
996,E01909,Lillian Khan,Analyst,Finance,Speciality Products,Female,Asian,44,2010-05-31,47387,0.00,China,Chengdu,2018-01-08
997,E04398,Oliver Yang,Director,Marketing,Speciality Products,Male,Asian,31,2019-06-10,176710,0.15,United States,Miami,NaT
998,E02521,Lily Nguyen,Sr. Analyst,Finance,Speciality Products,Female,Asian,33,2012-01-28,95960,0.00,China,Chengdu,NaT


7. Desde una SQL database

In [None]:
import pandas as pd
import sqlite3

# Preprar la conexión
conn = sqlite3.connect('chinook.db')

#df = pd.read_sql_query('SELECT * FROM customers', conn )
#df


df = pd.read_sql_query('SELECT FirstName, LastName FROM customers', conn )
df


## Indexing y selección

1. Indexación basada en etiquetas: Consiste en seleccionar los datos basándose en las etiquetas de índice de un DataFrame o Serie. Por ejemplo, puede utilizar el atributo .loc para seleccionar datos basándose en las etiquetas de fila y columna:

In [86]:
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}, index=['a', 'b', 'c'])
df

Unnamed: 0,A,B,C
a,1,4,7
b,2,5,8
c,3,6,9


In [87]:
# Selecciona el numero 5
'''
df.loc[etiquetas_filas, etiquetas_columnas]
'''

valor = df.loc['b','B']
valor


5

In [88]:
# Seleciona la fila 2
'''
df.loc[etiquetas_filas]
'''
df.loc['b']


A    2
B    5
C    8
Name: b, dtype: int64

In [95]:
# Seleccciona la primera columna
print(df.loc[:,'A']) 
# Otra forma
print(df['A']) # <- Esta es más correcta para selecctionar toda la columna


a    1
b    2
c    3
Name: A, dtype: int64
a    1
b    2
c    3
Name: A, dtype: int64


In [93]:
# Seleccione las filas 1 y 2
valores = df.loc['a':'b']
print(valores)

# Seleccione las filas 1 y 3
valores = df.loc[ ['a','c'] ]
print(valores)



   A  B  C
a  1  4  7
b  2  5  8
   A  B  C
a  1  4  7
c  3  6  9


In [96]:
# selecciona las dos últimas columnas
df[['B','C']]


Unnamed: 0,B,C
a,4,7
b,5,8
c,6,9


In [97]:
# Selecciona las dos primeras filas y las dos últimas columnas
df.loc[['a','b'],['B', 'C']


Unnamed: 0,B,C
a,4,7
b,5,8


2. Indexación basada en números enteros: Esto implica la selección de datos basada en la posición basada en enteros de las filas y columnas en un DataFrame o Serie. Por ejemplo, puede utilizar el atributo .iloc para seleccionar datos basados en índices enteros:

In [98]:
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}, index=['a', 'b', 'c'])
print(df)

   A  B  C
a  1  4  7
b  2  5  8
c  3  6  9


In [99]:
# Seleciona el numero 5
df.iloc[1,1]


5

In [100]:
# Selecciona la fila 2
df.iloc[1]


A    2
B    5
C    8
Name: b, dtype: int64

In [104]:
# Seleccione la tercera columna
# Antes
df['C']

# Otra forma con iloc
df.iloc[:,2]


a    7
b    8
c    9
Name: C, dtype: int64

In [107]:
# Selecciona las filas 1 y 2
df.iloc[[0,1]]

# otra forma
df.iloc[0:2]


Unnamed: 0,A,B,C
a,1,4,7
b,2,5,8


In [108]:
#Slicing Start:Stop:Step

# selecciona las dos últimas columnas
df.iloc[:,1:3]


Unnamed: 0,B,C
a,4,7
b,5,8
c,6,9


In [109]:
# Selecciona las dos primeras filas y las dos últimas columnas
df.iloc[:2, 1:]


Unnamed: 0,B,C
a,4,7
b,5,8


3. Indexación booleana: Consiste en seleccionar datos basándose en una máscara o condición booleana. Por ejemplo, puede utilizar la indexación booleana para seleccionar filas que cumplan determinados criterios:

In [111]:
df = pd.DataFrame({ 'Name': ['Pedro', 'Maria', 'Jose', 'Jorge', 'Ana', 'Juan', 'Luis', 'Laura', 'Carlos', 'Marcos'],
                    'Altura': [160, 165, 170, 175, 180, 185, 190, 195, 200, 205],
                    'Edad': [12, 34, 32, 45, 21, 23, 45, 32, 34, 56],
                })
df

Unnamed: 0,Name,Altura,Edad
0,Pedro,160,12
1,Maria,165,34
2,Jose,170,32
3,Jorge,175,45
4,Ana,180,21
5,Juan,185,23
6,Luis,190,45
7,Laura,195,32
8,Carlos,200,34
9,Marcos,205,56


In [112]:
# Selecciona las filas donde la altura es mayor a 180
gente_alta = df['Altura'] > 180
gente_alta


0    False
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
9     True
Name: Altura, dtype: bool

In [113]:
df[gente_alta]

Unnamed: 0,Name,Altura,Edad
5,Juan,185,23
6,Luis,190,45
7,Laura,195,32
8,Carlos,200,34
9,Marcos,205,56


In [116]:
# Seleccion las filas donde la altura es mayor a 180 y la edad es mayor a 30
gente_alta = df['Altura'] > 180
mayor_30 = df['Edad'] > 30

df[ gente_alta & mayor_30 ]


Unnamed: 0,Name,Altura,Edad
6,Luis,190,45
7,Laura,195,32
8,Carlos,200,34
9,Marcos,205,56


In [120]:
# El nombre y edad de la gente que mida menos de 180
menor_de_180 = df['Altura'] < 180
nuevo_df = df[menor_de_180]

nuevo_df[['Name', 'Edad']]

Unnamed: 0,Name,Edad
0,Pedro,12
1,Maria,34
2,Jose,32
3,Jorge,45


In [122]:
# El nombre y edad de la gente que mida menos de 180 sin crear un nuevo df
menor_de_180 = df['Altura'] < 180
df[menor_de_180][['Name', 'Edad']]

Unnamed: 0,Name,Edad
0,Pedro,12
1,Maria,34
2,Jose,32
3,Jorge,45


Del mismo modo, podemos utilizar la indexación basada en etiquetas y la indexación basada en enteros para asignar valores a un DataFrame o a una Serie:

In [133]:
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}, index=['a', 'b', 'c'])
df

Unnamed: 0,A,B,C
a,1,4,7
b,2,5,8
c,3,6,9


In [134]:
# Establece el valor de la celda en la fila 'a' y la columna 'A' en 10
df.loc['a','A'] = 10

df


Unnamed: 0,A,B,C
a,10,4,7
b,2,5,8
c,3,6,9


In [135]:
# Establece la segunda fila a [10, 11, 12]
df.loc['b'] = [10,11,12]
df


Unnamed: 0,A,B,C
a,10,4,7
b,10,11,12
c,3,6,9


In [136]:
# Establece la tercera columna en [13, 14, 15]
df['C'] = [13,14,15]

df


Unnamed: 0,A,B,C
a,10,4,13
b,10,11,14
c,3,6,15


In [137]:
# Establece la primera columna en [100, 110, 120]
df['A'] = [100,110,120] 
df

# otra forma. Aquí siempre va a modificar la primera columna
df.iloc[:,0] = [100,110,120]
df

Unnamed: 0,A,B,C
a,100,4,13
b,110,11,14
c,120,6,15


In [138]:
# Establece las dos últimas columnas y las dos últimas filas en 0
df.loc[['b','c'],['B','C']] = 0
df

# La alternativa
df.iloc[1:,1:] = 0
df


Unnamed: 0,A,B,C
a,100,4,13
b,110,0,0
c,120,0,0


In [139]:
# Establece las dos últimas columnas y las dos últimas filas en a [[10,20], [30,40]]

df.iloc[1:,1:] = [[10,20], [30,40]]
df

Unnamed: 0,A,B,C
a,100,4,13
b,110,10,20
c,120,30,40


In [150]:
# podemos añadir un dato al dataframe con la siguiente sintaxis:
df.loc['d'] = [10,20,30 ]
df


Unnamed: 0,A,B,C
a,100,4,13
b,110,10,20
c,120,30,40
d,10,20,30


In [151]:
# Eliminar una fila del DataFrame
df.drop('d', inplace=True)
df

#inplace

Unnamed: 0,A,B,C
a,100,4,13
b,110,10,20
c,120,30,40


## Ejercicios

In [163]:
# Dado el siguiente DataFrame, selecciona las filas donde la columna Animal sea igual a Dog
df = pd.DataFrame({'Animal': ['Dog', 'Cat', 'Dog', 'Fish', 'Fish'],
                   'Size': ['Small', 'Small', 'Large', 'Small', 'Large'],
                   'Color': ['Brown', 'Black', 'Brown', 'Gray', 'White']})

animal_dog = df['Animal'] == 'Dog'
df[animal_dog]

# Lo normal
df[df['Animal'] == 'Dog']

Unnamed: 0,Animal,Size,Color
0,Dog,Small,Brown
2,Dog,Large,Brown


In [164]:
# Dado el siguiente DataFrame, selecciona las filas donde la columna Age sea mayor a 30
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'Dave', 'Eve'],
                   'Age': [25, 30, 35, 40, 45]})

df[ df['Age'] > 30  ]

Unnamed: 0,Name,Age
2,Charlie,35
3,Dave,40
4,Eve,45


In [169]:
# Dado el siguiente DataFrame, selecciona las filas donde la columna Height sea menor o igual a 5
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'Dave', 'Eve'],
                   'Height': [5.5, 6.0, 6.5, 7.0, 3.5]})

df[ df['Height'] <= 5 ]

Unnamed: 0,Name,Height
4,Eve,3.5


In [172]:
# Dado el siguiente DataFrame, selecciona las filas donde la columna Score sea mayor o igual a 80 y menor o igual a 90
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'Dave', 'Eve'],
                   'Score': [85, 90, 95, 70, 80]})

gte_80 = df['Score'] >= 80
lte_90 = df['Score'] <= 90

df[ gte_80 & lte_90 ]

# otra forma
df[(df['Score'] >= 80) & (df['Score'] <= 90)]


Unnamed: 0,Name,Score
0,Alice,85
1,Bob,90
4,Eve,80


In [173]:
# Dado el siguiente DataFrame, selecciona todas las filas cuyo Gender no sea de Female
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'Dave', 'Eve'],
                   'Gender': ['Female', 'Male', 'Male', 'Female', 'Female']})

df[ df['Gender'] != 'Female']


Unnamed: 0,Name,Gender
1,Bob,Male
2,Charlie,Male


## Limpieza y preparación de datos

### Tratamiento de datos no disponibles

Para identificar los valores que faltan, puede utilizar la función isnull, que devuelve una máscara booleana que indica si falta o no cada valor. Por ejemplo:

In [182]:
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, None, 8, None, 10]})

# Buscar valores nulos
df.isnull()

# Buscar valores no nulos
df.notnull()



Unnamed: 0,A,B
0,True,True
1,True,False
2,True,True
3,True,False
4,True,True


También puede utilizar la función notnull, que es lo contrario de isnull y devuelve una máscara booleana que indica si cada valor no falta.

Una vez identificados los valores que faltan, puede tratarlos de varias maneras. Una opción es simplemente eliminar las filas o columnas que contienen valores perdidos utilizando la función dropna. Por ejemplo:

In [187]:
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, None, 8, None, 10]})
print(df)


# Elimina las filas con valores nulos
df.dropna()

   A     B
0  1   6.0
1  2   NaN
2  3   8.0
3  4   NaN
4  5  10.0


Unnamed: 0,A,B
0,1,6.0
2,3,8.0
4,5,10.0


In [191]:
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, None, 8, None, 10]})
print(df)

# Elimina la columnas con valores nulos
df.dropna(axis=1)

   A     B
0  1   6.0
1  2   NaN
2  3   8.0
3  4   NaN
4  5  10.0


Unnamed: 0,A
0,1
1,2
2,3
3,4
4,5


Otra opción es rellenar los valores que faltan con un valor específico utilizando la función fillna. Por ejemplo:

In [193]:
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, None, 8, None, 10]})
df

df.fillna(0)

Unnamed: 0,A,B
0,1,6.0
1,2,0.0
2,3,8.0
3,4,0.0
4,5,10.0


In [195]:
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, None, 8, None, 10]})
df
# Rellena los valores nulos con la media de la columna
df.fillna(df.mean())

Unnamed: 0,A,B
0,1,6.0
1,2,8.0
2,3,8.0
3,4,8.0
4,5,10.0


In [196]:
# Dado el siguiente DataFrame, cuenta el número de valores faltantes por columna
df = pd.DataFrame({'A': [1, 2, 3, 4, None],
                   'B': [None, 2, 3, 4, 5],
                   'C': [1, 2, None, 4, None]})

df.isnull().sum()


A    1
B    1
C    2
dtype: int64

In [197]:
# Dado el siguiente DataFrame, rellena los valores faltantes de cada columna con la media de la columna
df = pd.DataFrame({'A': [1, 2, 3, 4, None],
                   'B': [None, 2, 3, 4, 5],
                   'C': [1, 2, None, 4, 5]})


df.fillna(df.mean())

Unnamed: 0,A,B,C
0,1.0,3.5,1.0
1,2.0,2.0,2.0
2,3.0,3.0,3.0
3,4.0,4.0,4.0
4,2.5,5.0,5.0


### Manipulación de tipos de datos

Los tipos de datos en Pandas se refieren al tipo de datos que se almacenan en una columna de un DataFrame. Algunos tipos de datos comunes en Pandas incluyen enteros, flotantes, cadenas y fechas.

1. La función astype() permite convertir explícitamente un tipo de datos en otro. Por ejemplo, puede utilizarla para convertir una columna de enteros en una columna de flotantes, o una columna de cadenas en una columna de fechas.

In [201]:
# Dado el siguiente DataFrame, convierte los valores de la segunda columna a enteros
df = pd.DataFrame({
    'A': [1,2,3,4,5,6],
    'B': ['1','2','3','4','5','6']
})

df['A'] = df['A'].astype('str')

df.dtypes


A    object
B    object
dtype: object

2. La función to_numeric es similar a astype, pero está diseñada específicamente para convertir datos a tipos numéricos (por ejemplo, enteros o valores de coma flotante). Esta función es especialmente útil si tiene datos almacenados en forma de cadena, pero desea realizar operaciones numéricas con ellos.

In [208]:
# Dado el siguiente DataFrame, convierte los valores de la segunda columna a números reales
df = pd.DataFrame({
    'A': [1,2,3,4,5,6],
    'B': ['1','2','3','4','5','6']
})

df.dtypes

df['B'] = pd.to_numeric(df['B'], downcast='float')
print(df.dtypes)

print(df)



A      int64
B    float32
dtype: object
   A    B
0  1  1.0
1  2  2.0
2  3  3.0
3  4  4.0
4  5  5.0
5  6  6.0


3. La función to_datetime se utiliza para convertir datos en una variedad de formatos al tipo de datos datetime. Esto puede ser particularmente útil si tienes datos que se almacenan como una cadena, pero representan una fecha u hora.

In [213]:
#  Dado el siguiente DataFrame, convierte los valores de la segunda columna a números objetos DateTime
df = pd.DataFrame({'A': ['2022-01-01', '2022-02-01', '2022-03-01'], 'B': ['4', '5', '6'], 'C': ['7', '8', '9']})

df['A'] = pd.to_datetime(df['A'])
df.dtypes


A    datetime64[ns]
B            object
C            object
dtype: object

Eliminación de duplicados: Pandas proporciona la función drop_duplicates para identificar y eliminar filas duplicadas de un DataFrame.

In [216]:
# Dado el siguiente DataFrame, elimina los valores duplicados
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
                   'Age': [24, 50, 36, 24, 50, 38],
                   'Gender': ['Female', 'Male', 'Male', 'Female', 'Male', 'Male']})

print(df)
print('\n')
print(df.drop_duplicates())

      Name  Age  Gender
0    Alice   24  Female
1      Bob   50    Male
2  Charlie   36    Male
3    Alice   24  Female
4      Bob   50    Male
5  Charlie   38    Male


      Name  Age  Gender
0    Alice   24  Female
1      Bob   50    Male
2  Charlie   36    Male
5  Charlie   38    Male


In [224]:
# Dado el siguiente DataFrame, elimina los valores duplicados basándose en la columna Name
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
                   'Age': [24, 50, 36, 34, 60, 46],
                   'Gender': ['Female', 'Male', 'Male', 'Female', 'Male', 'Female']})

print(df)
print('\n')
print(df.drop_duplicates(subset=['Name'], keep=False))

        Name  Age  Gender
0      Alice   24  Female
1        Bob   50    Male
2    Charlie   36    Male
3      Alice   34  Female
4        Bob   60    Male
5  Charlie_2   46  Female


        Name  Age  Gender
2    Charlie   36    Male
5  Charlie_2   46  Female


### Ordenando datos

Para ordenar datos en un Pandas DataFrame, puede utilizar la función sort_values(). Esta función permite especificar una o más columnas para su ordenación, y proporciona una serie de opciones para controlar el orden de ordenación y el manejo de valores nulos.

In [228]:
# Dado el siguiente DataFrame, ordena los valores por la columna Age en orden ascendente
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
                   'Age': [24, 50, 36, 34, 60, 46],
                   'Gender': ['Female', 'Male', 'Male', 'Female', 'Male', 'Female']})


df.sort_values('Age')

Unnamed: 0,Name,Age,Gender
0,Alice,24,Female
1,Bob,50,Male
2,Charlie,36,Male
3,Alice,34,Female
4,Bob,60,Male
5,Charlie,46,Female


In [227]:
# Ahora ordena por edad en orden descendente
df.sort_values('Age', ascending=False)


Unnamed: 0,Name,Age,Gender
4,Bob,60,Male
1,Bob,50,Male
5,Charlie,46,Female
2,Charlie,36,Male
3,Alice,34,Female
0,Alice,24,Female


También puede ordenar por varias columnas pasando una lista de nombres de columnas al parámetro by. Por ejemplo:

In [231]:
# Ordena el dataframe por la columna Gender en orden descendente y por la columna Age en orden ascendente
df.sort_values(['Gender', 'Age'], ascending=[False, True])


Unnamed: 0,Name,Age,Gender
2,Charlie,36,Male
1,Bob,50,Male
4,Bob,60,Male
0,Alice,24,Female
3,Alice,34,Female
5,Charlie,46,Female


### Fusión y unión de datos

Pandas proporciona varias funciones para combinar y unir datos, incluyendo concat, merge y join. Estas funciones permiten combinar datos de múltiples fuentes en un único DataFrame, o dividir un único DataFrame en múltiples partes.

1. concat() es una función para concatenar datos de múltiples fuentes a lo largo de un eje determinado. Puede utilizar concat() para combinar datos de múltiples DataFrames o de una lista de objetos Series.

In [241]:
import pandas as pd

# Dados los siguientes DataFrames, concatena los DataFrames en un único DataFrame
df1 = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'],
                    'Age': [24, 50, 36]})
df2 = pd.DataFrame({'Name': ['Bob', 'Charlie', 'Dave'],
                    'Age': [50, 36, 30]})

concatenados = pd.concat([df1, df2],ignore_index=True)

concatenados


Unnamed: 0,Name,Age
0,Alice,24
1,Bob,50
2,Charlie,36
3,Bob,50
4,Charlie,36
5,Dave,30


2. merge() es una función para combinar datos de dos o más fuentes basándose en columnas comunes. Puede utilizar merge() para combinar datos de diferentes DataFrames basándose en una o más columnas compartidas.

In [245]:
# Dados los siguientes DataFrames, concatena los DataFrames en un único DataFrame basado en la columna Name
df1 = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'],
                    'Age': [24, 50, 36]})
df2 = pd.DataFrame({'Name': ['Bob', 'Charlie', 'Dave'],
                    'Salary': [50000, 60000, 40000]})

print(df1)
print(df2)

pd.merge(df1, df2, on='Name', how='outer')


      Name  Age
0    Alice   24
1      Bob   50
2  Charlie   36
      Name  Salary
0      Bob   50000
1  Charlie   60000
2     Dave   40000


Unnamed: 0,Name,Age,Salary
0,Alice,24.0,
1,Bob,50.0,50000.0
2,Charlie,36.0,60000.0
3,Dave,,40000.0


3. join() es una función para unir datos de un DataFrame a otro basándose en sus valores de índice. Puede utilizar join() para combinar datos de dos DataFrames basándose en sus etiquetas de fila (valores de índice). Por ejemplo

In [247]:
# Dados los siguientes DataFrames, concatena los DataFrames en un único DataFrame basado los indices
df1 = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'],
                    'Age': [24, 50, 36]},
                   index=['A', 'B', 'C'])

df2 = pd.DataFrame({'Salary': [50000, 60000, 40000]},
                   index=['A', 'B', 'C'])


print(df1)
print(df2)

df1.join(df2)



      Name  Age
A    Alice   24
B      Bob   50
C  Charlie   36
   Salary
A   50000
B   60000
C   40000


Unnamed: 0,Name,Age,Salary
A,Alice,24,50000
B,Bob,50,60000
C,Charlie,36,40000


In [251]:
# Datos los siguientes DataFrames, concatena los DataFrames en un único DataFrame basado los indices
df1 = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'Dave'],
                    'Age': [24, 50, 36, 13]},
                   index=['A', 'B', 'C', 'D'])
df2 = pd.DataFrame({'Salary': [50000, 60000, 40000]},
                   index=['A', 'B', 'C'])



print(df1)
print(df2)

df2.join(df1, how='outer')

      Name  Age
A    Alice   24
B      Bob   50
C  Charlie   36
D     Dave   13
   Salary
A   50000
B   60000
C   40000


Unnamed: 0,Salary,Name,Age
A,50000.0,Alice,24
B,60000.0,Bob,50
C,40000.0,Charlie,36
D,,Dave,13


## Cargar datos desde un archivo
### cargar un archivo csv

In [270]:
import pandas as pd

df = pd.read_csv('nba_players_2.csv')
df.head(10)


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
5,Amir Johnson,Boston Celtics,90.0,PF,29.0,6-9,240.0,,12000000.0
6,Jordan Mickey,Boston Celtics,55.0,PF,21.0,6-8,235.0,LSU,1170960.0
7,Kelly Olynyk,Boston Celtics,41.0,C,25.0,7-0,238.0,Gonzaga,2165160.0
8,Terry Rozier,Boston Celtics,12.0,PG,22.0,6-2,190.0,Louisville,1824360.0
9,Marcus Smart,Boston Celtics,36.0,PG,22.0,6-4,220.0,Oklahoma State,3431040.0


### Lectura de datos de un dataframe

In [257]:
'''
Muestra las cabeceras del dataframe df
'''
df.columns

Index(['Name', 'Team', 'Number', 'Position', 'Age', 'Height', 'Weight',
       'College', 'Salary'],
      dtype='object')

In [258]:
'''
Muestra las columnas Name y Age del dataframe df
'''
df[ ['Name', 'Age'] ]

Unnamed: 0,Name,Age
0,Avery Bradley,25.0
1,Jae Crowder,25.0
2,John Holland,27.0
3,R.J. Hunter,22.0
4,Jonas Jerebko,29.0
...,...,...
452,Trey Lyles,20.0
453,Shelvin Mack,26.0
454,Raul Neto,24.0
455,Tibor Pleiss,26.0


In [259]:
'''
Muestra las primeras 5 filas del dataframe df
'''
df.head()

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


In [260]:
'''
Muestra 10 filas del dataframe df
'''
df.head(10)


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
5,Amir Johnson,Boston Celtics,90.0,PF,29.0,6-9,240.0,,12000000.0
6,Jordan Mickey,Boston Celtics,55.0,PF,21.0,6-8,235.0,LSU,1170960.0
7,Kelly Olynyk,Boston Celtics,41.0,C,25.0,7-0,238.0,Gonzaga,2165160.0
8,Terry Rozier,Boston Celtics,12.0,PG,22.0,6-2,190.0,Louisville,1824360.0
9,Marcus Smart,Boston Celtics,36.0,PG,22.0,6-4,220.0,Oklahoma State,3431040.0


### Mostrar las filas en función de una condición

In [268]:
'''
Muestra los jugadores que tengan una edad igual o mayor a 39
'''
igual_o_mayor_39 = df['Age'] >= 39


df[igual_o_mayor_39]

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
102,Pablo Prigioni,Los Angeles Clippers,9.0,PG,39.0,6-3,185.0,,947726.0
261,Vince Carter,Memphis Grizzlies,15.0,SG,39.0,6-6,220.0,North Carolina,4088019.0
298,Tim Duncan,San Antonio Spurs,21.0,C,40.0,6-11,250.0,Wake Forest,5250000.0
304,Andre Miller,San Antonio Spurs,24.0,PG,40.0,6-3,200.0,Utah,250750.0
400,Kevin Garnett,Minnesota Timberwolves,21.0,PF,40.0,6-11,240.0,,8500000.0


In [272]:
'''
Muestra los jugadores de los Minnesota Timberwolves
'''

df[ df['Team'] ==  'Minnesota Timberwolves']


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
398,Nemanja Bjelica,Minnesota Timberwolves,88.0,PF,28.0,6-10,240.0,,3950001.0
399,Gorgui Dieng,Minnesota Timberwolves,5.0,C,26.0,6-11,241.0,Louisville,1474440.0
400,Kevin Garnett,Minnesota Timberwolves,21.0,PF,40.0,6-11,240.0,,8500000.0
401,Tyus Jones,Minnesota Timberwolves,1.0,PG,20.0,6-2,195.0,Duke,1282080.0
402,Zach LaVine,Minnesota Timberwolves,8.0,PG,21.0,6-5,189.0,UCLA,2148360.0
403,Shabazz Muhammad,Minnesota Timberwolves,15.0,SF,23.0,6-6,223.0,UCLA,2056920.0
404,Adreian Payne,Minnesota Timberwolves,33.0,PF,25.0,6-10,237.0,Michigan State,1938840.0
405,Nikola Pekovic,Minnesota Timberwolves,14.0,C,30.0,6-11,307.0,,12100000.0
406,Tayshaun Prince,Minnesota Timberwolves,12.0,SF,36.0,6-9,212.0,Kentucky,947276.0
407,Ricky Rubio,Minnesota Timberwolves,9.0,PG,25.0,6-4,194.0,,12700000.0


#### Operaciones con los datos

In [273]:
# Pandas puede hacer un resumen del dataframe

df.describe()

Unnamed: 0,Number,Age,Weight,Salary
count,457.0,457.0,457.0,446.0
mean,17.678337,26.938731,221.522976,4842684.0
std,15.96609,4.404016,26.368343,5229238.0
min,0.0,19.0,161.0,30888.0
25%,5.0,24.0,200.0,1044792.0
50%,13.0,26.0,220.0,2839073.0
75%,25.0,30.0,240.0,6500000.0
max,99.0,40.0,307.0,25000000.0


In [274]:
'''
Muestra el dataframe ordenado por el atributo Name
'''
df.sort_values('Name')


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
152,Aaron Brooks,Chicago Bulls,0.0,PG,31.0,6-0,161.0,Oregon,2250000.0
356,Aaron Gordon,Orlando Magic,0.0,PF,20.0,6-9,220.0,Arizona,4171680.0
328,Aaron Harrison,Charlotte Hornets,9.0,SG,21.0,6-6,210.0,Kentucky,525093.0
404,Adreian Payne,Minnesota Timberwolves,33.0,PF,25.0,6-10,237.0,Michigan State,1938840.0
312,Al Horford,Atlanta Hawks,15.0,C,30.0,6-10,245.0,Florida,12000000.0
...,...,...,...,...,...,...,...,...,...
386,Wilson Chandler,Denver Nuggets,21.0,SF,29.0,6-8,225.0,DePaul,10449438.0
270,Xavier Munford,Memphis Grizzlies,14.0,PG,24.0,6-3,180.0,Rhode Island,
402,Zach LaVine,Minnesota Timberwolves,8.0,PG,21.0,6-5,189.0,UCLA,2148360.0
271,Zach Randolph,Memphis Grizzlies,50.0,PF,34.0,6-9,260.0,Michigan State,9638555.0


In [275]:
'''
Muestra el dataframe ordenado por el atributo Team y Name
'''

df.sort_values( ['Team', 'Name'] )

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
312,Al Horford,Atlanta Hawks,15.0,C,30.0,6-10,245.0,Florida,12000000.0
318,Dennis Schroder,Atlanta Hawks,17.0,PG,22.0,6-1,172.0,,1763400.0
323,Jeff Teague,Atlanta Hawks,0.0,PG,27.0,6-2,186.0,Wake Forest,8000000.0
309,Kent Bazemore,Atlanta Hawks,24.0,SF,26.0,6-5,201.0,Old Dominion,2000000.0
311,Kirk Hinrich,Atlanta Hawks,12.0,SG,35.0,6-4,190.0,Kansas,2854940.0
...,...,...,...,...,...,...,...,...,...
381,Marcus Thornton,Washington Wizards,15.0,SF,29.0,6-4,205.0,LSU,200600.0
376,Markieff Morris,Washington Wizards,5.0,PF,26.0,6-10,245.0,Kansas,8000000.0
375,Nene Hilario,Washington Wizards,42.0,C,33.0,6-11,250.0,,13000000.0
378,Otto Porter Jr.,Washington Wizards,22.0,SF,23.0,6-8,198.0,Georgetown,4662960.0


In [276]:
'''
Ordena alfabetiticamente los equipos y dentro de cada equipo ordena alfabeticamente por nombre (descendente)
'''

df.sort_values(['Team', 'Name'], ascending=[True, False])

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
322,Walter Tavares,Atlanta Hawks,22.0,C,24.0,7-3,260.0,,1000000.0
310,Tim Hardaway Jr.,Atlanta Hawks,10.0,SG,24.0,6-6,205.0,Michigan,1304520.0
321,Tiago Splitter,Atlanta Hawks,11.0,C,31.0,6-11,245.0,,9756250.0
320,Thabo Sefolosha,Atlanta Hawks,25.0,SF,32.0,6-7,220.0,,4000000.0
315,Paul Millsap,Atlanta Hawks,4.0,PF,31.0,6-8,246.0,Louisiana Tech,18671659.0
...,...,...,...,...,...,...,...,...,...
374,JJ Hickson,Washington Wizards,21.0,C,27.0,6-9,242.0,North Carolina State,273038.0
380,Garrett Temple,Washington Wizards,17.0,SG,30.0,6-6,195.0,LSU,1100602.0
372,Drew Gooden,Washington Wizards,90.0,PF,34.0,6-10,250.0,Kansas,3300000.0
369,Bradley Beal,Washington Wizards,3.0,SG,22.0,6-5,207.0,Florida,5694674.0


#### Modificar el dataframe

In [279]:
'''
Añade una columna al dataframe df con el año de nacimiento del jugador
'''
df['Año nacimiento'] = 2023 - df['Age']
df['Año nacimiento'] = pd.to_numeric(df['Año nacimiento'], downcast='integer')

df

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary,Año nacimiento
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0,1998
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0,1998
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,,1996
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0,2001
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0,1994
...,...,...,...,...,...,...,...,...,...,...
452,Trey Lyles,Utah Jazz,41.0,PF,20.0,6-10,234.0,Kentucky,2239800.0,2003
453,Shelvin Mack,Utah Jazz,8.0,PG,26.0,6-3,203.0,Butler,2433333.0,1997
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,,900000.0,1999
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,,2900000.0,1997


In [280]:
'''
Elimina la columna Anno nacimiento del dataframe df
'''
df.drop('Año nacimiento', axis=1, inplace=True)
df


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
...,...,...,...,...,...,...,...,...,...
452,Trey Lyles,Utah Jazz,41.0,PF,20.0,6-10,234.0,Kentucky,2239800.0
453,Shelvin Mack,Utah Jazz,8.0,PG,26.0,6-3,203.0,Butler,2433333.0
454,Raul Neto,Utah Jazz,25.0,PG,24.0,6-1,179.0,,900000.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,,2900000.0


#### Reordenar columnas

In [284]:
'''
Reordena las columnas del dataframe df (elige tú el orden que quieras)
'''

df.columns

df2 = df[['College','Team', 'Age' , 'Name', 'Number', 'Position', 'Height', 'Weight', 'Salary']]
df2

Unnamed: 0,College,Team,Age,Name,Number,Position,Height,Weight,Salary
0,Texas,Boston Celtics,25.0,Avery Bradley,0.0,PG,6-2,180.0,7730337.0
1,Marquette,Boston Celtics,25.0,Jae Crowder,99.0,SF,6-6,235.0,6796117.0
2,Boston University,Boston Celtics,27.0,John Holland,30.0,SG,6-5,205.0,
3,Georgia State,Boston Celtics,22.0,R.J. Hunter,28.0,SG,6-5,185.0,1148640.0
4,,Boston Celtics,29.0,Jonas Jerebko,8.0,PF,6-10,231.0,5000000.0
...,...,...,...,...,...,...,...,...,...
452,Kentucky,Utah Jazz,20.0,Trey Lyles,41.0,PF,6-10,234.0,2239800.0
453,Butler,Utah Jazz,26.0,Shelvin Mack,8.0,PG,6-3,203.0,2433333.0
454,,Utah Jazz,24.0,Raul Neto,25.0,PG,6-1,179.0,900000.0
455,,Utah Jazz,26.0,Tibor Pleiss,21.0,C,7-3,256.0,2900000.0


#### Guardar los datos en un archivo csv

In [286]:
df2.to_csv('nba_copia.csv', index=False, sep=';')


df3 = pd.read_csv('nba_copia.csv', sep=';')
df3

Unnamed: 0,College,Team,Age,Name,Number,Position,Height,Weight,Salary
0,Texas,Boston Celtics,25.0,Avery Bradley,0.0,PG,6-2,180.0,7730337.0
1,Marquette,Boston Celtics,25.0,Jae Crowder,99.0,SF,6-6,235.0,6796117.0
2,Boston University,Boston Celtics,27.0,John Holland,30.0,SG,6-5,205.0,
3,Georgia State,Boston Celtics,22.0,R.J. Hunter,28.0,SG,6-5,185.0,1148640.0
4,,Boston Celtics,29.0,Jonas Jerebko,8.0,PF,6-10,231.0,5000000.0
...,...,...,...,...,...,...,...,...,...
452,Kentucky,Utah Jazz,20.0,Trey Lyles,41.0,PF,6-10,234.0,2239800.0
453,Butler,Utah Jazz,26.0,Shelvin Mack,8.0,PG,6-3,203.0,2433333.0
454,,Utah Jazz,24.0,Raul Neto,25.0,PG,6-1,179.0,900000.0
455,,Utah Jazz,26.0,Tibor Pleiss,21.0,C,7-3,256.0,2900000.0


#### Filtrando datos

In [289]:
'''
Carga el dataframe de jugadores en df
filtra los jugadores que tengan de la universidad de Minnesota
'''
df[ df['College'] == 'Minnesota' ]

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
313,Kris Humphries,Atlanta Hawks,43.0,PF,31.0,6-9,235.0,Minnesota,1000000.0


In [292]:
'''
Filtra de los Atlanta Hawks los jugadores con mas de 30 años
'''

df[(df['Team'] == 'Atlanta Hawks') & (df['Age'] > 30) ]


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
311,Kirk Hinrich,Atlanta Hawks,12.0,SG,35.0,6-4,190.0,Kansas,2854940.0
313,Kris Humphries,Atlanta Hawks,43.0,PF,31.0,6-9,235.0,Minnesota,1000000.0
314,Kyle Korver,Atlanta Hawks,26.0,SG,35.0,6-7,212.0,Creighton,5746479.0
315,Paul Millsap,Atlanta Hawks,4.0,PF,31.0,6-8,246.0,Louisiana Tech,18671659.0
320,Thabo Sefolosha,Atlanta Hawks,25.0,SF,32.0,6-7,220.0,,4000000.0
321,Tiago Splitter,Atlanta Hawks,11.0,C,31.0,6-11,245.0,,9756250.0


In [297]:
'''
Otro ejemplo de filtrado
'''
atlanta_30 = df[(df['Team'] == 'Atlanta Hawks') & (df['Age'] > 30) ]
atlanta_30.reset_index(drop=True, inplace=True)

atlanta_30

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Kirk Hinrich,Atlanta Hawks,12.0,SG,35.0,6-4,190.0,Kansas,2854940.0
1,Kris Humphries,Atlanta Hawks,43.0,PF,31.0,6-9,235.0,Minnesota,1000000.0
2,Kyle Korver,Atlanta Hawks,26.0,SG,35.0,6-7,212.0,Creighton,5746479.0
3,Paul Millsap,Atlanta Hawks,4.0,PF,31.0,6-8,246.0,Louisiana Tech,18671659.0
4,Thabo Sefolosha,Atlanta Hawks,25.0,SF,32.0,6-7,220.0,,4000000.0
5,Tiago Splitter,Atlanta Hawks,11.0,C,31.0,6-11,245.0,,9756250.0


In [299]:
'''
Ordena los jugadores por altura del mas alto al mas bajo
'''
df.sort_values('Height', ascending=False)


Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
40,Kristaps Porzingis,New York Knicks,6.0,PF,20.0,7-3,240.0,,4131720.0
322,Walter Tavares,Atlanta Hawks,22.0,C,24.0,7-3,260.0,,1000000.0
455,Tibor Pleiss,Utah Jazz,21.0,C,26.0,7-3,256.0,,2900000.0
302,Boban Marjanovic,San Antonio Spurs,40.0,C,27.0,7-3,290.0,,1200000.0
111,Roy Hibbert,Los Angeles Lakers,17.0,C,29.0,7-2,270.0,Georgetown,15592217.0
...,...,...,...,...,...,...,...,...,...
228,J.J. Barea,Dallas Mavericks,5.0,PG,31.0,6-0,185.0,Northeastern,4290000.0
11,Isaiah Thomas,Boston Celtics,4.0,PG,27.0,5-9,185.0,Washington,6912869.0
203,Ty Lawson,Indiana Pacers,10.0,PG,28.0,5-11,195.0,North Carolina,211744.0
22,Shane Larkin,Brooklyn Nets,0.0,PG,23.0,5-11,175.0,Miami (FL),1500000.0


## Expresiones regulares


Las expresiones regulares son una forma de escribir un patrón de caracteres que se puede usar para buscar una cadena de texto.


In [None]:
'''
Busca los jugadores que se llamen James
'''


In [None]:
'''
Busca los jugadores que se llamen James como primer nombre
'''


In [None]:
'''
Busca los jugadores que se llamen James como primer nombre (ignora mayusculas)
'''


## Cambios condicionales

In [None]:
'''
Busca los jugadores del Boston Celtics y cambialo por Boston Celtics CocaCola
'''



## Funciones de agregación

In [None]:
'''
Agrupa los jugadores por universidad y suma su salario
'''


In [None]:
'''
Agrupa los jugadores por universidad y suma su salario y ordenalos por salario
'''


In [None]:
'''
Agrupamos los jugadores por universidad y contabilizamos cuantos jugadores hay en cada una
'''
