In [23]:
import pandas as pd

In [2]:
# series en pandas

numeros = [2,3,4,5,6,7]
serie = pd.Series(numeros)

serie, type(serie)

(0    2
 1    3
 2    4
 3    5
 4    6
 5    7
 dtype: int64,
 pandas.core.series.Series)

In [4]:
data = {
    "Nombre": ["Ana", "Juan", "Pedro", "Maria", "Luis"],
    "Edad": [22,25,28,23,20],
    "Ciudad": ["Barcelona", "Madrid", "Valencia", "Sevilla", "Bilboa"]
}

data, type(data)

({'Nombre': ['Ana', 'Juan', 'Pedro', 'Maria', 'Luis'],
  'Edad': [22, 25, 28, 23, 20],
  'Ciudad': ['Barcelona', 'Madrid', 'Valencia', 'Sevilla', 'Bilboa']},
 dict)

In [5]:
# generar un dataframe a partir de un diccionario

df = pd.DataFrame(data=data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,Maria,23,Sevilla
4,Luis,20,Bilboa


In [6]:
# exportar un dataframe

df.to_csv("data.csv")

In [7]:
# importar un dataframe

import_df = pd.read_csv("data.csv", index_col=0)
import_df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,Maria,23,Sevilla
4,Luis,20,Bilboa


In [9]:
# seleccionar una columna

nombres = df["Nombre"]
nombres, type(nombres)

(0      Ana
 1     Juan
 2    Pedro
 3    Maria
 4     Luis
 Name: Nombre, dtype: object,
 pandas.core.series.Series)

In [10]:
# seleccionar una o mas columnas

df[["Nombre", "Edad"]]

Unnamed: 0,Nombre,Edad
0,Ana,22
1,Juan,25
2,Pedro,28
3,Maria,23
4,Luis,20


In [11]:
# filtrar por indice

fila = df.loc[2]
fila

Nombre       Pedro
Edad            28
Ciudad    Valencia
Name: 2, dtype: object

In [12]:
# filtrar por condicion

df[df['Edad'] > 23]

Unnamed: 0,Nombre,Edad,Ciudad
1,Juan,25,Madrid
2,Pedro,28,Valencia


In [14]:
filtro = (df['Edad']>23) & (df['Nombre'].str.startswith("P"))
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,28,Valencia


In [15]:
df.query('Edad < 23')

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
4,Luis,20,Bilboa


In [16]:
df[df['Nombre'].isin(["Ana", "Carlos", "Luis"])]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
4,Luis,20,Bilboa


In [17]:
def longitud_5( nombre ):
    return len( nombre ) == 5

df[df['Nombre'].apply(longitud_5)]

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,28,Valencia
3,Maria,23,Sevilla


In [18]:
# filtrar por edades entre 25 y 35 años, inclusivo

df[df['Edad'].between(25, 35)]

Unnamed: 0,Nombre,Edad,Ciudad
1,Juan,25,Madrid
2,Pedro,28,Valencia


In [22]:
import numpy as np

In [24]:
data = {
    "Nombre": ["Ana", "Juan", "Pedro", "Maria", "Luis"],
    "Edad": [22,25,np.nan,23,20],
    "Ciudad": ["Barcelona", "Madrid", "Valencia", None, "Bilboa"]
}

In [25]:
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilboa


In [26]:
# rellenar los valores faltantes

df_fill = df.fillna(
    {
        "Edad": df['Edad'].mean(),
        "Ciudad": "Desconocido"
    }
)

In [27]:
df_fill

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,22.5,Valencia
3,Maria,23.0,Desconocido
4,Luis,20.0,Bilboa


In [28]:
df_sin_nan = df.dropna()
df_sin_nan

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
4,Luis,20.0,Bilboa


In [30]:
df_reem = df.replace(
    {
        "Ciudad" : {None:"Desconocido"}
    }
)
df_reem

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,Desconocido
4,Luis,20.0,Bilboa


In [31]:
# interpolar valores

df_interpolar = df.copy()
df_interpolar['Edad'] = df['Edad'].interpolate()
df_interpolar

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,24.0,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilboa


In [32]:
data_duplicado = {
    "Nombre": ["Ana", "Juan", "Pedro", "Maria", "Luis", "Ana", "Juan"],
    "Edad": [22,25,np.nan,23,20,22,25],
    "Ciudad": ["Barcelona", "Madrid", "Valencia", None, "Bilboa", "Barcelona", "Madrid"]
}
df_duplicado = pd.DataFrame(data_duplicado)
df_duplicado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilboa
5,Ana,22.0,Barcelona
6,Juan,25.0,Madrid


In [33]:
df_sin_duplicado = df_duplicado.drop_duplicates()

In [34]:
df_sin_duplicado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilboa


In [35]:
# renonmbrar columnas

df_renombrado = df.rename(columns={"Nombre":"Name", "Edad":"Age", "Ciudad":"City"})
df_renombrado

Unnamed: 0,Name,Age,City
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilboa


In [36]:
# ordenar columnas
columnas_ordenadas = ["Ciudad", "Edad", "Nombre"]
df_ordenado = df[columnas_ordenadas]
df_ordenado 

Unnamed: 0,Ciudad,Edad,Nombre
0,Barcelona,22.0,Ana
1,Madrid,25.0,Juan
2,Valencia,,Pedro
3,,23.0,Maria
4,Bilboa,20.0,Luis


In [37]:
# transformacion de datos

def cuadrado(x):
    return x**2

df['Edad_Cuadrado'] = df['Edad'].apply(cuadrado)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_Cuadrado
0,Ana,22.0,Barcelona,484.0
1,Juan,25.0,Madrid,625.0
2,Pedro,,Valencia,
3,Maria,23.0,,529.0
4,Luis,20.0,Bilboa,400.0


In [38]:
data = {
    "Nombre": ['Juan', 'Ana', 'Luis', 'Laura', 'Pedro', 'Carla'],
    "Ciudad": ['Madrid', 'Barcelona', 'Madrid', 'Valencia', 'Barcelona', 'Madrid'],
    "Edad": [25, 33, 30, 28, 45, 38],
    "Puntuacion": [80, 90, 85, 88, 75, 91]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion
0,Juan,Madrid,25,80
1,Ana,Barcelona,33,90
2,Luis,Madrid,30,85
3,Laura,Valencia,28,88
4,Pedro,Barcelona,45,75
5,Carla,Madrid,38,91


In [40]:
# agrupar los datos por ciudad

group = df.groupby("Ciudad")
group.groups

{'Barcelona': [1, 4], 'Madrid': [0, 2, 5], 'Valencia': [3]}