### Operaciones básicas pandas

https://pandas.pydata.org/pandas-docs/stable/

In [2]:
import pandas as pd

#### Pandas Cheat Sheet

##### Importing Data
- pd.read_csv(filename) | From a CSV file
- pd.read_table(filename) | From a delimited text file (like TSV)
- pd.read_excel(filename) | From an Excel file
- pd.read_sql(query, connection_object) | Read from a SQL table/database
- pd.read_json(json_string) | Read from a JSON formatted string, URL or file.
- pd.read_html(url) | Parses an html URL, string or file and extracts tables to a list of dataframes
- pd.read_clipboard() | Takes the contents of your clipboard and passes it to read_table()
- pd.DataFrame(dict) | From a dict, keys for columns names, values for data as lists

##### Exporting Data
- df.to_csv(filename) | Write to a CSV file
- df.to_excel(filename) | Write to an Excel file
- df.to_sql(table_name, connection_object) | Write to a SQL table
- df.to_json(filename) | Write to a file in JSON format

##### Viewing/Inspecting Data
- df.head(n) | First n rows of the DataFrame
- df.tail(n) | Last n rows of the DataFrame
- df.shape | Number of rows and columns
- df.info() | Index, Datatype and Memory information
- df.describe() | Summary statistics for numerical columns
- df.isnull().sum() | View null values

##### Transform Data
- df.apply(columna) | Transform or create a new column with a custom function
- df.groupby([columns]).agg(aggregatedColumnName=(columnName, typeAgg)) | aggregating the information
- pd.merge(df1, df2, on=column, how=type_join) | Join dataframes

##### Selection
- df[col] | Returns column with label col as Series
- df[[col1, col2]] | Returns columns as a new DataFrame
- df.iloc[0,:] | First row
- df.iloc[0,0] | First element of first column

##### Visualization data
- px.histogram(df, x='ColumnX', color='split the data in colors')
- px.bar(df, x='ColumnX', y='columnY', color='split the data in colors')
- px.scatter(df, x='ColumnX', y='columnY', color='split the data in colors')
- more info in <a href='https://plotly.com/python/plotly-express/'>plotly examples</a>
- sns.barplot(x="columnX", y='columnY', hue="split_data in colors", data=df);
- sns.distplot(data=df);
- more info in <a href='https://seaborn.pydata.org/examples/index.html'>seaborn examples</a>

In [3]:
# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Ana','Luis','Carlos','Marta','Sofia','Ana','Carlos'],
    'Edad': [23,45,34,29,41,30,41],
    'Ciudad': ['Madrid','Barcelona','Sevilla','Valencia','Bilbao','Valencia','Sevilla'],
    'Salario': [25000,32000,28000,30000,27000,27000,28000]
} # Un diccionario con arrays como valores

df = pd.DataFrame(data)

In [4]:
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,23,Madrid,25000
1,Luis,45,Barcelona,32000
2,Carlos,34,Sevilla,28000
3,Marta,29,Valencia,30000
4,Sofia,41,Bilbao,27000
5,Ana,30,Valencia,27000
6,Carlos,41,Sevilla,28000


In [5]:
# Seleccionar una columna
df['Edad']

0    23
1    45
2    34
3    29
4    41
5    30
6    41
Name: Edad, dtype: int64

In [6]:
# Seleccionar mas de una columna, podemos alterar el orden
df[['Edad','Nombre']]

Unnamed: 0,Edad,Nombre
0,23,Ana
1,45,Luis
2,34,Carlos
3,29,Marta
4,41,Sofia
5,30,Ana
6,41,Carlos


In [7]:
# filtrar datos
print('Personas con salario mayor a 28.000€')
df[df['Salario']>28000]


Personas con salario mayor a 28.000€


Unnamed: 0,Nombre,Edad,Ciudad,Salario
1,Luis,45,Barcelona,32000
3,Marta,29,Valencia,30000


In [8]:
# varias condiciones
print('Personas con salario mayor a 28.000€ y que sea de Barcelona')
df[(df['Salario']>28000) & (df['Ciudad'] == 'Barcelona')]

Personas con salario mayor a 28.000€ y que sea de Barcelona


Unnamed: 0,Nombre,Edad,Ciudad,Salario
1,Luis,45,Barcelona,32000


In [9]:
# Agregar una nueva columna
df['Años de experienca'] = df['Edad'].apply(lambda x: x-20)  # creamos una nueva variale llamada años de experiencia, basada en la variable edad -20 
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Años de experienca
0,Ana,23,Madrid,25000,3
1,Luis,45,Barcelona,32000,25
2,Carlos,34,Sevilla,28000,14
3,Marta,29,Valencia,30000,9
4,Sofia,41,Bilbao,27000,21
5,Ana,30,Valencia,27000,10
6,Carlos,41,Sevilla,28000,21


In [10]:
# Operaciones de agregación 
print('\nSalario promedio:',df['Salario'].mean())
print('\nEdad máxima:',df['Edad'].max())



Salario promedio: 28142.85714285714

Edad máxima: 45


In [11]:
# Agrupar datos por ciudad y calcular salario promedio (groupby())
print('Salario promedio por ciudad:')
print(df.groupby('Ciudad')['Salario'].mean())

Salario promedio por ciudad:
Ciudad
Barcelona    32000.0
Bilbao       27000.0
Madrid       25000.0
Sevilla      28000.0
Valencia     28500.0
Name: Salario, dtype: float64


In [12]:
# Segunda forma con formula .agg
df.groupby('Ciudad').agg(media=('Salario','mean')) # el primer argumento es la variable a aplicar la función de agregación, el segundo argumento es el calculo que queremos realizar

Unnamed: 0_level_0,media
Ciudad,Unnamed: 1_level_1
Barcelona,32000.0
Bilbao,27000.0
Madrid,25000.0
Sevilla,28000.0
Valencia,28500.0


In [13]:
df.groupby('Ciudad', as_index = False).agg(media=('Salario','mean')) # as_index para que no nos utilice como indice la variable media

Unnamed: 0,Ciudad,media
0,Barcelona,32000.0
1,Bilbao,27000.0
2,Madrid,25000.0
3,Sevilla,28000.0
4,Valencia,28500.0


In [None]:
df.groupby('Ciudad', as_index = False).agg(media=('Salario','mean'), 
                                           maximo=('Salario','max'),
                                           suma=('Salario','sum')) # podemos añadir tantas funciones de agregación como queramos

Unnamed: 0,Ciudad,media,maximo,suma
0,Barcelona,32000.0,32000,32000
1,Bilbao,27000.0,27000,27000
2,Madrid,25000.0,25000,25000
3,Sevilla,28000.0,28000,56000
4,Valencia,28500.0,30000,57000


In [15]:
# Podemos extraer tambien la lista de nombres por group by (ciduad)
df.groupby('Ciudad', as_index = False).agg(media=('Salario','mean'), 
                                           maximo=('Salario','max'),
                                           suma=('Salario','sum'),
                                           lista_nombres = ('Nombre',list))

Unnamed: 0,Ciudad,media,maximo,suma,lista_nombres
0,Barcelona,32000.0,32000,32000,[Luis]
1,Bilbao,27000.0,27000,27000,[Sofia]
2,Madrid,25000.0,25000,25000,[Ana]
3,Sevilla,28000.0,28000,56000,"[Carlos, Carlos]"
4,Valencia,28500.0,30000,57000,"[Marta, Ana]"


In [16]:
# Crear un segundo DataFrame con información adicional

data_extra = {
    'Nombre': ['Ana','Luis','Pepe','Marta','Antonio'],
    'Departamento': ['Ventas','Marketing','TI','RRHH','Finanzas'],
    'Bonificación': [2000,2500,1800,2200,2100],
}

df_extra = pd.DataFrame(data_extra) # Lo convertimos en un DataFrame

print('Segundo DataFrame:')
df_extra

Segundo DataFrame:


Unnamed: 0,Nombre,Departamento,Bonificación
0,Ana,Ventas,2000
1,Luis,Marketing,2500
2,Pepe,TI,1800
3,Marta,RRHH,2200
4,Antonio,Finanzas,2100


In [17]:
print('Primer DataFrame:')
df

Primer DataFrame:


Unnamed: 0,Nombre,Edad,Ciudad,Salario,Años de experienca
0,Ana,23,Madrid,25000,3
1,Luis,45,Barcelona,32000,25
2,Carlos,34,Sevilla,28000,14
3,Marta,29,Valencia,30000,9
4,Sofia,41,Bilbao,27000,21
5,Ana,30,Valencia,27000,10
6,Carlos,41,Sevilla,28000,21


In [25]:
# Unir los DataFrames usando merge
merged_df = pd.merge(df,df_extra, on='Nombre', how='right') # Hacemos un right join, primer y segundo argumento los dataframes, tercer argumento por donde, y cuarto que tipo de merge, en este caso right join
print('DataFrame combinado con merge:')
merged_df

DataFrame combinado con merge:


Unnamed: 0,Nombre,Edad,Ciudad,Salario,Años de experienca,Departamento,Bonificación
0,Ana,23.0,Madrid,25000.0,3.0,Ventas,2000
1,Ana,30.0,Valencia,27000.0,10.0,Ventas,2000
2,Luis,45.0,Barcelona,32000.0,25.0,Marketing,2500
3,Pepe,,,,,TI,1800
4,Marta,29.0,Valencia,30000.0,9.0,RRHH,2200
5,Antonio,,,,,Finanzas,2100


In [26]:
# Unir los DataFrames usando merge
merged_df_1 = pd.merge(df,df_extra, on='Nombre', how='left') # left join
print('DataFrame combinado con merge:')
merged_df_1

DataFrame combinado con merge:


Unnamed: 0,Nombre,Edad,Ciudad,Salario,Años de experienca,Departamento,Bonificación
0,Ana,23,Madrid,25000,3,Ventas,2000.0
1,Luis,45,Barcelona,32000,25,Marketing,2500.0
2,Carlos,34,Sevilla,28000,14,,
3,Marta,29,Valencia,30000,9,RRHH,2200.0
4,Sofia,41,Bilbao,27000,21,,
5,Ana,30,Valencia,27000,10,Ventas,2000.0
6,Carlos,41,Sevilla,28000,21,,


In [27]:
# Unir los DataFrames usando merge
merged_df_2 = pd.merge(df,df_extra, on='Nombre', how='inner') # inner join
print('DataFrame combinado con merge:')
merged_df_2

DataFrame combinado con merge:


Unnamed: 0,Nombre,Edad,Ciudad,Salario,Años de experienca,Departamento,Bonificación
0,Ana,23,Madrid,25000,3,Ventas,2000
1,Luis,45,Barcelona,32000,25,Marketing,2500
2,Marta,29,Valencia,30000,9,RRHH,2200
3,Ana,30,Valencia,27000,10,Ventas,2000


In [28]:
# Unir los DataFrames usando merge
merged_df_3 = pd.merge(df,df_extra, on='Nombre', how='outer') # outer join
print('DataFrame combinado con merge:')
merged_df_3

DataFrame combinado con merge:


Unnamed: 0,Nombre,Edad,Ciudad,Salario,Años de experienca,Departamento,Bonificación
0,Ana,23.0,Madrid,25000.0,3.0,Ventas,2000.0
1,Ana,30.0,Valencia,27000.0,10.0,Ventas,2000.0
2,Antonio,,,,,Finanzas,2100.0
3,Carlos,34.0,Sevilla,28000.0,14.0,,
4,Carlos,41.0,Sevilla,28000.0,21.0,,
5,Luis,45.0,Barcelona,32000.0,25.0,Marketing,2500.0
6,Marta,29.0,Valencia,30000.0,9.0,RRHH,2200.0
7,Pepe,,,,,TI,1800.0
8,Sofia,41.0,Bilbao,27000.0,21.0,,
