### <u>***UNIDAD 1. DESCARGAR BASES DE DATOS E INFORMACION BASICA DE LA BASE DE DATOS***</u>

Pandas es la librería más popular de Python para el análisis de datos.

En Pandas, hay dos objetos principales: el ***DataFrame*** y la ***Serie***.

Un ***DataFrame*** es una tabla. Contiene un array de entradas individuales, cada una de las cuales tiene un valor determinado. Cada entrada corresponde a una fila (o registro) y a una columna. Al final es como una tabla de una base de datos.

In [1]:
# Importamos la librería de Pandas

import pandas as pd

A continuación, creamos un dataframe a partir de un archivo de excel, usando un método de Pandas llamado <code>read_csv()</code>. El primer parámetro es el nombre del archivo del que vamos a leer, y el segundo parámetro se indica para eliminar la columna de indice que por defecto nos da un dataframe.

Podeis realizar vuestras pruebas quitando y poniendo parámetros.

Mas info en la web de [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)


---



In [2]:
# (Descargar archivo del projecto de Github)

df=pd.read_csv('Advertising.csv', index_col=0)
df

FileNotFoundError: ignored

Creamos otro dataframe a partir de un archivo csv utilizando, de nuevo, el método de Pandas <code>read_csv()</code>.

También podemos leer de otros muchos tipos de archivos (*excel, json, sql, html, xml, sas, etc...*), para crear un dataframe.

Mas info en [Pandas](https://pandas.pydata.org/docs/reference/io.html)

In [None]:
# (Descargar archivo del projecto de Github)

df= pd.read_csv('ds_salaries.csv')

df




---



Para ver el numero de filas y columnas usamos la propiedad de Pandas <code>shape</code>

In [None]:
df.shape



---


Podemos ver el dataframe completo usando el método <code>to_string()</code>.

Este método muestra un DataFrame en una salida tabular amigable para la consola.

In [None]:
# Para poder ver la DF completa usamos el método to_string()

print(df.to_string())




---


Para ver mas informacion usamos el método de Pandas <code>info()</code> esta vez va con parentesis porque es una funcion (metodo).

> *Recordemos que los métodos son funciones que pertenecen a una clase.*


Los *object* que se ven en la columna de "tipos de datos" (Dtype) son *strings*

In [None]:
df.info()



---



El método de Pandas <code>head()</code> muestra el número de filas que queremos visualizar desde el principio (cabecera) del dataframe (df), pasándole el número de filas como parámetro de la función. Si no se indica el número de filas en el método, muestra las 5 primeras filas por defecto.

Más info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html#pandas.DataFrame.head).

In [None]:
# Nos muestra las 20 primeras filas del dataframe.

df.head(20)



---



El método de Pandas <code>tail()</code> muestra el número de filas que queremos visualizar desde el final (cola) del dataframe (df), pasándole el número de filas como parámetro de la función. Si no se indica el número de filas en el método, muestra las 5 últimas filas por defecto.

Más info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html#pandas.DataFrame.tail).

In [None]:
# Nos muestra las 15 ultimas filas del dataframe.

df.tail(15)



---



Pandas tiene un sistema de opciones que permite personalizar algunos aspectos de su comportamiento, siendo las opciones relacionadas con la visualización las que el usuario es más propenso a ajustar.

Esto lo conseguimos con el método <code>set_option()</code>.

En el siguiente snippet, cambiamos la opción de visualización máxima de columnas a 11.

Más info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.set_option.html#pandas-set-option).

In [None]:
pd.set_option('display.max_columns', 11)

In [None]:
df



---



La función <code>describe()</code> genera estadísticas descriptivas del dataframe, como la media (**mean**), la desviación estándar (**std**), los porcentiles (**25%, 50% y 75%**), el valor mínimo (**min**) y el valor máximo (**max**), además del recuento (**count**) de todos los valores de cada columna (excluyendo los valores NaN, es decir, aquellos valores que no son númericos).

In [None]:
df.describe()
# round(df.describe(),2) ---> Redondeamos los valores estadísticos a 2 decimales.

### <u>***UNIDAD 2: DATAFRAME Y SERIES***</u>



---

Anteriomente, vimos la definición de un dataframe. Una **Serie**, por el contrario, e**s una secuencia de valores de datos**.

> ***Si un DataFrame es una tabla, una Serie es una lista.***

Podemos crear un dataframe desde cero, mediante los ***diccionarios*** de Python.

Recordemos que un diccionario es una estructura de datos de Python donde se almacenan pares de Clave-Valor, separados por dos puntos (:), y cada par separado por comas.

A continuación, vamos a ver diferentes formas de crear el diccionario:

In [3]:
# Usando un diccionario básico tenemos
gente= {
    'nombre':'Marta',
    'apellido': 'Ruiz',
    'email': 'martaruiz@gmail.com'
}


In [4]:
# Diccionario con listas de una sola persona
gente={
    'nombre': ['Marta'],
    'apellido': ['Ruiz'],
    'email': ['martaruiz@gmail.com']
}

In [5]:
# Diccionario con listas de varias personas
gente={
    'nombre': ['Marta', 'Luis', 'Ana'],
    'apellido': ['Ruiz', 'Lopez', 'Santana'],
    'email': ['martaruiz@gmail.com', 'luislopez@gmail.com', 'anasantana@gmail.com']
}

In [6]:
# imprimimos los valores de la clave "email"

gente['email']

['martaruiz@gmail.com', 'luislopez@gmail.com', 'anasantana@gmail.com']



---


Para crear un dataframe con el diccionario anterior usamos el constructor de Pandas <code>pd.Dataframe()</code> ("pd" es el alias que hemos puesto al importar la librería de Pandas), y le pasamos como parámetro el diccionario.

Más info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).

In [7]:
df=pd.DataFrame(gente)

df

Unnamed: 0,nombre,apellido,email
0,Marta,Ruiz,martaruiz@gmail.com
1,Luis,Lopez,luislopez@gmail.com
2,Ana,Santana,anasantana@gmail.com


In [8]:
# Para acceder a informacion y ver los indices

df['email']

0     martaruiz@gmail.com
1     luislopez@gmail.com
2    anasantana@gmail.com
Name: email, dtype: object

In [9]:
# También podemos acceder a la información de una columna de la siguiente manera:

df.email

0     martaruiz@gmail.com
1     luislopez@gmail.com
2    anasantana@gmail.com
Name: email, dtype: object



---



Cuando pedimos que nos diga el tipo (type) de una columna de un dataframe, vemos que lo que nos devuelve es una *Serie*.

In [10]:
type(df['email'])


pandas.core.series.Series



---


Si queremos acceder a varias columnas, hace falta el doble corchete para evitar que pandas piense que los dos strings son el nombre de una sola
columna

In [11]:
df[['apellido', 'email']]

Unnamed: 0,apellido,email
0,Ruiz,martaruiz@gmail.com
1,Lopez,luislopez@gmail.com
2,Santana,anasantana@gmail.com




---


Para acceder a los nombres de las columnas podemos usar la propiedad de Pandas <code>columns</code>

In [12]:
df.columns

Index(['nombre', 'apellido', 'email'], dtype='object')



---


La indexación en Pandas funciona en uno de los dos siguientes paradigmas:
*   Selección basada en índices.
*   Selección basada en etiquetas.

La selección basada en índices selecciona los datos basándose en su posición numérica en el dataframe. La propiedad <code>iloc</code> sigue este paradigma.

In [13]:
# Para ver las filas usamos los indices y la funcion iloc y la notación de
# índices (integer location)

df.iloc[0]

nombre                    Marta
apellido                   Ruiz
email       martaruiz@gmail.com
Name: 0, dtype: object

In [14]:
# Si queremos ver dos filas usamos una lista numérica dentro de la notación
# de índices

df.iloc[[0,1]]

Unnamed: 0,nombre,apellido,email
0,Marta,Ruiz,martaruiz@gmail.com
1,Luis,Lopez,luislopez@gmail.com


In [15]:
# Si queremos mostrar dos filas y la columna con el indice 2

df.iloc[[0, 1], 2]

0    martaruiz@gmail.com
1    luislopez@gmail.com
Name: email, dtype: object



---


En el paradigma de la selección basada en etiquetas lo que importa es el valor del índice del dato, no su posición.

<code>iloc</code> es conceptualmente más sencillo que <code>loc</code> porque ignora los índices del conjunto de datos. Cuando usamos <code>iloc</code> tratamos el conjunto de datos como una gran matriz (una lista de listas), en la que tenemos que indexar por posición.

<code>loc</code>, por el contrario, usa la información de los índices para hacer su trabajo. Dado que el conjunto de datos suele tener índices significativos, suele ser más fácil hacer las cosas con <code>loc</code>.

In [16]:
# Mostramos otra vez nuestra tabla o DataFrame

df

Unnamed: 0,nombre,apellido,email
0,Marta,Ruiz,martaruiz@gmail.com
1,Luis,Lopez,luislopez@gmail.com
2,Ana,Santana,anasantana@gmail.com


In [17]:
# Accedemos a datos del primer registro igual que hacíamos con iloc.

df.loc[0]

nombre                    Marta
apellido                   Ruiz
email       martaruiz@gmail.com
Name: 0, dtype: object

In [18]:
# Podemos acceder a unos registros (filas) concretas del dataframe
# y a unas columnas concretas, de la siguiente manera:

df.loc[[0,1], ['email', 'apellido']]

Unnamed: 0,email,apellido
0,martaruiz@gmail.com,Ruiz
1,luislopez@gmail.com,Lopez


In [19]:
# También podemos usar el slicing o loncheado de la notación de índices.
# No hay doble corchete porque no estamos pasando una lista como antes.

df.loc[0:2, 'email']

0     martaruiz@gmail.com
1     luislopez@gmail.com
2    anasantana@gmail.com
Name: email, dtype: object

In [20]:
# Igualmente, podemos usar el slicing para filas y columnas.

df.loc[0:2, 'nombre': 'email']

Unnamed: 0,nombre,apellido,email
0,Marta,Ruiz,martaruiz@gmail.com
1,Luis,Lopez,luislopez@gmail.com
2,Ana,Santana,anasantana@gmail.com


### <u>***UNIDAD 3: INDICES (set, reset, etc.)***</u>

In [None]:
# Diccionario con listas de varias personas

gente={
    'nombre': ['Marta', 'Luis', 'Ana'],
    'apellido': ['Ruiz', 'Lopez', 'Santana'],
    'email': ['martaruiz@gmail.com', 'luislopez@gmail.com', 'anasantana@gmail.com']
}

In [None]:
# Creamos el dataframe utilizando el diccionario del snippet anterior.

df=pd.DataFrame(gente)

df

Unnamed: 0,nombre,apellido,email
0,Marta,Ruiz,martaruiz@gmail.com
1,Luis,Lopez,luislopez@gmail.com
2,Ana,Santana,anasantana@gmail.com




---


Podemos cambiar los indices numéricos por defecto de los dataframe, usando el método de Pandas `set_index()`. Este método establece el índice del DataFrame (etiquetas de fila) utilizando una o más columnas o arrays existentes (de la longitud correcta).

> *El índice puede sustituir al índice existente o ampliarlo*.

En el siguiente snippet, vamos a cambiar los índices predeterminados (0, 1, 2, ...) por los valores de la columna "emails" que también son valores únicos en cada fila y, por tanto, para cada persona del DF. (Esto es similar a establecer una ***primary key*** en SQL).

El parámetro `inplace=True` acepta valores booleanos y se utiliza para indicar si se modifica el DataFrame en lugar de crear uno nuevo. Por defecto, el valor es `False`, y este ejemplo en concreto estamos creando un dataframe nuevo.

Mas info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.set_index.html#pandas.DataFrame.set_index).

In [None]:
df.set_index('email', inplace=True)

df

Unnamed: 0_level_0,nombre,apellido
email,Unnamed: 1_level_1,Unnamed: 2_level_1
martaruiz@gmail.com,Marta,Ruiz
luislopez@gmail.com,Luis,Lopez
anasantana@gmail.com,Ana,Santana




---


Si queremos poner los nuevos indices por orden alfabetico usamos la funcion `sort_index()`.

Más info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_index.html).

In [None]:
df.sort_index()

Unnamed: 0_level_0,nombre,apellido
email,Unnamed: 1_level_1,Unnamed: 2_level_1
anasantana@gmail.com,Ana,Santana
luislopez@gmail.com,Luis,Lopez
martaruiz@gmail.com,Marta,Ruiz


Para que el orden sea el contrario (descendente) al alfabetico usamos el
parámetro `ascending = False`

In [None]:
df.sort_index(ascending=False)

Unnamed: 0_level_0,nombre,apellido
email,Unnamed: 1_level_1,Unnamed: 2_level_1
martaruiz@gmail.com,Marta,Ruiz
luislopez@gmail.com,Luis,Lopez
anasantana@gmail.com,Ana,Santana


In [None]:
# Usamos la propiedad "index" para ver los índices del dataframe.

df.index

Index(['martaruiz@gmail.com', 'luislopez@gmail.com', 'anasantana@gmail.com'], dtype='object', name='email')



---


Después de los cambios realizados en el índice de las filas, donde antes usábamos el índice numérico (0, 1, 2, ...), ahora vamos a usar el valor string de la columna "email", junto con la propiedad `loc`.

In [None]:
df.loc['anasantana@gmail.com']

nombre          Ana
apellido    Santana
Name: anasantana@gmail.com, dtype: object

In [None]:
# También podemos detallar mas la consulta, añadiendo una columna:

df.loc['anasantana@gmail.com', 'apellido']

'Santana'



---


Como comentamos anteriormente, teniendo en cuenta los paradisgmas que usan las propiedades `loc` e `iloc` respectivamente, al no usar ya índices numéricos, no podemos usarlos en la propiedad `loc`, ya que ésta nos arrojaría un error.

In [None]:
# La ejecución de este snippet causa un error.

df.loc[0]

KeyError: ignored

Sin embargo, con la propiedad `iloc` si podemos seguir usando los indices numericos anteriores.

In [None]:
df.iloc[0]

nombre      Marta
apellido     Ruiz
Name: martaruiz@gmail.com, dtype: object



---


Si queremos volver a poner los indices por defecto, usamos la funcion `reset_index()`.

En el siguiente snippet volvemos a usar el parámetro `inplace=True`.

Más info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html).

In [None]:
df.reset_index(inplace=True)

df

Unnamed: 0,index,email,nombre,apellido
0,0,martaruiz@gmail.com,Marta,Ruiz
1,1,luislopez@gmail.com,Luis,Lopez
2,2,anasantana@gmail.com,Ana,Santana


### <u>***UNIDAD 4. FILTRAR DATAFRAME Y BUSCAR DATOS QUE CUMPLAN DETERMINADAS CONDICIONES (and Y or)***</u>

Comenzamos esta sección creando un dataframe a partir de un diccionario que vamos a definir, y mediante el constructor de Pandas `pd.Dataframe()`.

In [None]:
gente={
    'nombre': ['Marta', 'Luis', 'Ana', 'Andres', 'Monica', 'Ana'],
    'apellido': ['Ruiz', 'Lopez', 'Santana', 'Lopez', 'Castro', 'Perez'],
    'email': ['martaruiz@gmail.com', 'luislopez@gmail.com', 'anasantana@gmail.com', 'andreslopez@gmail.com', 'monicacastro@gmail.com', 'saraperez@gmail.com'],
    'edad': [35, 28, 35, 'NaN', 53, 67],
    'salario': [20000, 25000, 50000, 17000, 20000, 65000],
    'ciudad' :['Madrid', 'Valencia', 'Malaga', 'Cadiz', 'Burgos', 'Madrid'],
    'casado': ['Yes', 'No', 'Yes', 'No', 'NaN', 'Yes']
}

#NaN =   not a number

In [None]:
df=pd.DataFrame(gente)

df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


<u>*Filtro 1*</u>: ¿Quienes tienen el apellido López?

In [None]:
# Al usar el operador de comparación "igual" (==), el resultado es un valor
# booleano para cada fila.

df['apellido'] == 'Lopez'


0    False
1     True
2    False
3     True
4    False
5    False
Name: apellido, dtype: bool

<u>*Filtro 2*</u>: Mostrar todos los registros que contengan el apellido "López".

In [None]:
# Vamos a crear una variable llamada "filt" (no uses "filter" porque es una palabra
# clave de Python), donde guardaremos la consulta del snippet anterior.

filt= df['apellido'] == 'Lopez'

In [None]:
# Usamos la variable "filt" en el dataframe para visualizar los registros de
# la consulta.

df[filt]

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No


In [None]:
# Si usamos la propiedad "loc" podemos buscar alguna columna de la busqueda anterior

df.loc[filt, 'email']

1      luislopez@gmail.com
3    andreslopez@gmail.com
Name: email, dtype: object

> En Pandas, el operador `and` se representa con el símbolo `&`, y el operador `or` se representa con el símbolo `|` (este símbolo se consigue pulsando las teclas: <mark>*alt gr* + 1</mark>).

<u>*Filtro 3*</u>: Mostrar los registros cuyo apellido sea López ***y*** cuyo nombre sea Andrés.

In [None]:
filt= (df['apellido'] == 'Lopez') & (df['nombre'] == 'Andres')

df[filt]

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No


<u>*Filtro 4*</u>: Mostrar los registros cuyo apellido sea López ***o*** cuyo nombre sea Andrés.

In [None]:
#vamos a usar ahora el 'o' que en Pandas es igual a |
filt= (df['apellido'] == 'Lopez') | (df['nombre'] == 'Ana')
df[filt]


Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


> La negación lógica (***not***) en Pandas se representa con el símbolo `~` (este símbolo se consigue pulsando las teclas: <mark>*alt gr* + 4</mark> y luego pulsando la tecla <mark>espacio</mark>.

<u>*Filtro 5*</u>: Mostrar los registros cuyo apellido <u>no</u> sea López ***o*** cuyo nombre <u>no</u> sea Andrés.

In [None]:
filt= (df['apellido'] == 'Lopez') | (df['nombre'] == 'Ana')

df[~filt]

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000,Madrid,Yes
4,Monica,Castro,monicacastro@gmail.com,53,20000,Burgos,


<u>*Filtro 6*</u>: Mostrar los registros de aquellas personas que ganen más de 35000€ de salario.

Esta vez, creamos una variable llamada `salario_alto` donde guardaremos el filtro (que ya sabemos que nos devuelve valores booleanos) y la usamos en el dataframe como notación de índices.

In [None]:
salario_alto = (df['salario'] > 35000)

df[salario_alto]

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
2,Ana,Santana,anasantana@gmail.com,35,50000,Malaga,Yes
5,Ana,Perez,saraperez@gmail.com,67,65000,Madrid,Yes


In [None]:
# Podemos filtrar aún más la busqueda anteior:

df.loc[salario_alto, ['edad', 'ciudad']]

Unnamed: 0,edad,ciudad
2,35,Malaga
5,67,Madrid


<u>*Filtro 7*</u>: Mostrar los registros de aquellas personas que vivan en Madrid y Málaga.

>El método `isin()` nos permite pasarle como parámetros un valor iterable (Series, Dataframe o diccionario) y nos devuelve un valor booleano de cada elemento del dataframe, indicando si está presente en el dataframe o columna(s) del dataframe en cuestión.
>
>Los pasos para crear este filtro son:
1.  Creamos una lista `ciudades` con los valores que queremos buscar en el dataframe.
2.  Creamos la variable `filt` con el filtro que nos devolverá valores booleanos.
3.  Pasamos la variable `filt` a la propiedad `loc` para mostrar los registros resultantes del filtro.

Más info del método `isin()` en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isin.html).

In [None]:
ciudades=['Madrid', 'Malaga']

filt= df['ciudad'].isin(ciudades)

df.loc[filt]

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000,Madrid,Yes
2,Ana,Santana,anasantana@gmail.com,35,50000,Malaga,Yes
5,Ana,Perez,saraperez@gmail.com,67,65000,Madrid,Yes


<u>*Filtro 8*</u>: Mostrar los registros de aquellas personas cuya ciudad contenga la letra "g".

>Para este filtro, usaremos el método `str.contains()` de las Series de Pandas, que nos permite comprobar si un patrón o regex (expresión regular, en íngles) está contenido en una cadena de una Serie o Índice .
>
>El parametro `regex=False` es un valor booleano que:
+   Si es `True`, asume que el patrón es una expresión regular.
+   Si es `False`, trata el patrón como una cadena literal (string).

In [None]:
filt = df['ciudad'].str.contains('g', regex='False')

df.loc[filt]

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
2,Ana,Santana,anasantana@gmail.com,35,50000,Malaga,Yes
4,Monica,Castro,monicacastro@gmail.com,53,20000,Burgos,


### <u>***UNIDAD 5. CAMBIAR DATOS EN EL DATAFRAME***</u>

In [None]:
# Vamos a ver que columnas tiene nuestro DF

df.columns

Index(['nombre', 'apellido', 'email', 'edad', 'salario', 'ciudad', 'casado'], dtype='object')

Vamos a cambiar el nombre de todas las columnas al ingles

In [None]:
df.columns=['name', 'last_name', 'email', 'age', 'salary', 'city', 'married']

df.columns

Index(['name', 'last_name', 'email', 'age', 'salary', 'city', 'married'], dtype='object')

In [None]:
# Para ver todo el DF

df

Unnamed: 0,name,last_name,email,age,salary,city,married
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


Si queremos que los nombres de las columnas esten en mayusculas, utilizaremos una compresión de lista para las columnas y usaremos el método `upper()` de los *Strings* el la variable temporal del bucle `for`.

In [None]:
df.columns = [x.upper() for x in df.columns]

df

Unnamed: 0,NAME,LAST_NAME,EMAIL,AGE,SALARY,CITY,MARRIED
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


Si quieres quitar espacios entre palabras y meter guiones bajos por ejemplo, o hacer lo contrario, usaremos el método `str.replace()` de los Strings en las columnas del dataframe.

In [None]:
df.columns= df.columns.str.replace('_', ' ')

df

Unnamed: 0,NAME,LAST NAME,EMAIL,AGE,SALARY,CITY,MARRIED
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


Vamos a dejar los nombres de las columnas en minusculas otra vez usando, esta vez, el método `lower()` de los Strings en la compresión de listas.

In [None]:
df.columns = [x.lower() for x in df.columns]

df

Unnamed: 0,name,last name,email,age,salary,city,married
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


Si solo queremos cambiar el nombre de algunas columnas, usamos el método `rename` de dataframes en Pandas y un diccionario.

Más info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html#pandas.DataFrame.rename).

In [None]:
df.rename(columns={'name': 'nombre', 'last name': 'apellido', 'age':'edad', 'city': 'ciudad'}, inplace=True)

df


Unnamed: 0,nombre,apellido,email,edad,salary,ciudad,married
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


Si queremos cambiar un solo valor dentro del dataframe, por ejemplo, cambiar el apellido a Monica Castro, utilizaremos la propiedad `loc` indicando el índice de
fila y la columna a cambiar.

In [None]:
df.loc[4, 'apellido'] = 'Romero'

df

Unnamed: 0,nombre,apellido,email,edad,salary,ciudad,married
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Romero,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


En esta ocasión, vamos a cambiar la edad y el salario de Marta Ruiz.

In [None]:
df.loc[0, ['edad', 'salary']] =[70, 78000]

df

Unnamed: 0,nombre,apellido,email,edad,salary,ciudad,married
0,Marta,Ruiz,martaruiz@gmail.com,70.0,78000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Romero,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


Una propiedad parecida a `loc` es la funcion `at` pero ésta solo cambia un único dato.

En el siguiente snippet, vamos a darle a Marta Ruiz de nuevo su edad a 35 usando la propiedad `at`.

Más info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.at.html#pandas.DataFrame.at).

In [None]:
df.at[0, 'edad'] = 35

df

Unnamed: 0,nombre,apellido,email,edad,salary,ciudad,married
0,Marta,Ruiz,martaruiz@gmail.com,35.0,78000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Romero,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


Vamos a cambiar los nombres de columnas que quedaban en ingles al español (salary y married).

In [None]:
df.rename(columns={'salary': 'salario', 'married': 'casado'}, inplace=True)

df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35.0,78000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Romero,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


Esta vez queremos cambiar la ciudad de la fila en la que el email es "saraperez@gmail.com".

De nuevo, usamos una variable (`filt`) para almacenar los valores booleanos del filtro creado y luego lo usamos en la propiedad `loc`.

In [None]:
filt= (df['email'] == 'saraperez@gmail.com')

filt

0    False
1    False
2    False
3    False
4    False
5     True
Name: email, dtype: bool

In [None]:
df.loc[filt, 'ciudad'] = 'Paris'

df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35.0,78000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Romero,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Paris,Yes


Si queremos actualizar multiples filas y convertirlas en mayúsculas, usaremos el método `str.upper()` de los Strings en la columna que queramos modificar.

In [None]:
df['email'].str.upper()

0       MARTARUIZ@GMAIL.COM
1       LUISLOPEZ@GMAIL.COM
2      ANASANTANA@GMAIL.COM
3     ANDRESLOPEZ@GMAIL.COM
4    MONICACASTRO@GMAIL.COM
5       SARAPEREZ@GMAIL.COM
Name: email, dtype: object

Si ahora queremos ver todo el dataframe con los emails conertidos a mayúsculas, aplicaremos la sentencia del snippet anterior a la columna "email" de nuestro dataframe.

In [None]:
df['email']= df['email'].str.upper()

df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,MARTARUIZ@GMAIL.COM,35.0,78000,Madrid,Yes
1,Luis,Lopez,LUISLOPEZ@GMAIL.COM,28.0,25000,Valencia,No
2,Ana,Santana,ANASANTANA@GMAIL.COM,35.0,50000,Malaga,Yes
3,Andres,Lopez,ANDRESLOPEZ@GMAIL.COM,,17000,Cadiz,No
4,Monica,Romero,MONICACASTRO@GMAIL.COM,53.0,20000,Burgos,
5,Ana,Perez,SARAPEREZ@GMAIL.COM,67.0,65000,Paris,Yes




---


Vamos a usar varios métodos muy utiles para cambiar datos de un dataframe como son:
+   `apply()`. Mas info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html).
+   `map()`. Mas info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.map.html).
+   `applymap()`. Mas info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.applymap.html). *Este método ya está obsoleto a partir de la versión 2.1.0 de Pandas, y en su lugar se usa `map()`*.
+   `replace()`. Mas info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.replace.html).


El método `apply()` aplica una función a lo largo de un eje (fila o columna) del dataFrame.

En esta ocasión aplica la función `len` (sin paréntesis) para que nos devuelva la longitud de los valores de la columna "*email*".

In [None]:
df['email'].apply(len)

0    19
1    19
2    20
3    21
4    22
5    19
Name: email, dtype: int64

El método `apply()` también se puede usar con funciones propias creadas por nosotros.

In [None]:
def actualiza_email(email):
  return email.lower()

df['email'].apply(actualiza_email)  # En esta sentencia solo visualizamos la aplicación de la función que hemos creado.

0       martaruiz@gmail.com
1       luislopez@gmail.com
2      anasantana@gmail.com
3     andreslopez@gmail.com
4    monicacastro@gmail.com
5       saraperez@gmail.com
Name: email, dtype: object

A continuación, aplicamos los cambios de la función creada anteriormente `actualiza_email()`, a nuestro dataframe.

In [None]:
df['email'] = df['email'].apply(actualiza_email)

df


Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35.0,78000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Romero,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Paris,Yes




---



Si utilizamos el método `appy()` para Series (una sola columna)
no nos muestra lo que nosotros buscabamos que era la longitud (*len*) de todos los valores del dataframe. Solo nos muestra la cantidad de elementos que contiene cada columna, que son 6.


> Para Dataframes usamos el método `applymap()`.

In [None]:
df.apply(len)

nombre      6
apellido    6
email       6
edad        6
salario     6
ciudad      6
casado      6
dtype: int64

Vamos a usar el método `applymap()` a continuación.

El siguiente snippet nos da error porque las columnas "*edad*" y "*salario*" tienen valores ***integer***. Más adelante tendremos que cambiar esos valores a *strings*.

In [None]:
df.applymap(len)

TypeError: ignored

En esta ocasión, vamos a crear un nuevo dataframe pero con las columnas "*edad*" y "*salario*" de tipo *string*.

Nuevamente, creamos un diccionario con los nombres las columnas y los valores de cada columna en una lista.

Luego, como siempre, pasaremos ese diccionario a un dataframe.

In [21]:
gentestr={
    'nombre': ['Marta', 'Luis', 'Ana', 'Andres', 'Monica', 'Ana'],
    'apellido': ['Ruiz', 'Lopez', 'Santana', 'Lopez', 'Castro', 'Perez'],
    'email': ['martaruiz@gmail.com', 'luislopez@gmail.com', 'anasantana@gmail.com', 'andreslopez@gmail.com', 'monicacastro@gmail.com', 'saraperez@gmail.com'],
    'edad': ['35', '28', '35', 'NaN', '53', '67'],
    'salario': ['20000', '25000', '50000', '17000', '20000', '65000'],
    'ciudad' :['Madrid', 'Valencia', 'Malaga', 'Cadiz', 'Burgos', 'Madrid'],
    'casado': ['Yes', 'No', 'Yes', 'No', 'NaN', 'Yes']
}

#NaN =   not a number

In [22]:
df=pd.DataFrame(gentestr)

df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


Ahora si podemos aplicar la funcion `len()` a todo el dataframe y nos da la longitud de todos los valores de cada columna del dataframe.

In [23]:
df.applymap(len)

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,5,4,19,2,5,6,3
1,4,5,19,2,5,8,2
2,3,7,20,2,5,6,3
3,6,5,21,3,5,5,2
4,6,6,22,2,5,6,3
5,3,5,19,2,5,6,3


Si queremos que todos los valores del dataframe pasen a mayúsculas, aplicamos el método `str.upper()` pasándolo como parámetro de nuestro método para dataframes `applymap()`.

In [24]:
df.applymap(str.upper)

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,MARTA,RUIZ,MARTARUIZ@GMAIL.COM,35,20000,MADRID,YES
1,LUIS,LOPEZ,LUISLOPEZ@GMAIL.COM,28,25000,VALENCIA,NO
2,ANA,SANTANA,ANASANTANA@GMAIL.COM,35,50000,MALAGA,YES
3,ANDRES,LOPEZ,ANDRESLOPEZ@GMAIL.COM,NAN,17000,CADIZ,NO
4,MONICA,CASTRO,MONICACASTRO@GMAIL.COM,53,20000,BURGOS,NAN
5,ANA,PEREZ,SARAPEREZ@GMAIL.COM,67,65000,MADRID,YES


Volvemos a dejar los valores en minúsculas.

In [25]:
df.applymap(str.lower)

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,marta,ruiz,martaruiz@gmail.com,35.0,20000,madrid,yes
1,luis,lopez,luislopez@gmail.com,28.0,25000,valencia,no
2,ana,santana,anasantana@gmail.com,35.0,50000,malaga,yes
3,andres,lopez,andreslopez@gmail.com,,17000,cadiz,no
4,monica,castro,monicacastro@gmail.com,53.0,20000,burgos,
5,ana,perez,saraperez@gmail.com,67.0,65000,madrid,yes




---

Como dijimos anteriormente, el método `map()` sustituye al método `applymap()`, quedando este último obsoleto a partir de la versión 2.1.0 de Pandas.

En el siguiente snippet, queremos cambiar dos valores de la columna "*nombre*".

<mark>* *Los nombres que no se han cambiado muestra NaN (Not A Number)*</mark>

In [26]:
df['nombre'].map({'Marta':'Sofia','Andres':'Sandalio'})

0       Sofia
1         NaN
2         NaN
3    Sandalio
4         NaN
5         NaN
Name: nombre, dtype: object

También podemos usar el método de Pandas `replace()`.

In [27]:
df['apellido'].replace({'Lopez': 'Santos', 'Perez': 'Salmeron'})

0        Ruiz
1      Santos
2     Santana
3      Santos
4      Castro
5    Salmeron
Name: apellido, dtype: object

Si vemos como queda el dataframe original vemos que los cambios realizados en las columnas "*nombre*" y "*apellido*" con ambos métodos solo eran temporales.

In [28]:
df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


Por tanto, tal y como hemos hecho en snippets anteriores, si queremos que los cambios queden fijos en el dataframe original entonces haremos lo siguiente, en este caso para la columna "*apellido*" y usando el método `replace()`.

In [29]:
df['apellido'] =df['apellido'].replace({'Lopez': 'Santos', 'Perez': 'Salmeron'})

df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
1,Luis,Santos,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Santos,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Salmeron,saraperez@gmail.com,67.0,65000,Madrid,Yes


### <u>***UNIDAD 6. AÑADIR Y QUITAR FILAS Y COLUMNAS DEL DATAFRAME. - COMBINAR INFORMACION***</u>

Podemos añadir una columna con la siguiente sintaxis:

1. Primero vemos como añadir una nueva columna a la DataFrame.

In [32]:
# para añadir una nueva columna al DF
df['numero hijos']=[1, 2, 4, 2, 0, 1]
df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado,numero hijos
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes,1
1,Luis,Santos,luislopez@gmail.com,28.0,25000,Valencia,No,2
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes,4
3,Andres,Santos,andreslopez@gmail.com,,17000,Cadiz,No,2
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,,0
5,Ana,Salmeron,saraperez@gmail.com,67.0,65000,Madrid,Yes,1


In [None]:
# cambiar la nueva columna a otra posicion de la dataframe

In [33]:
columnas=list(df.columns)

In [34]:
columnas.remove('numero hijos')

In [35]:
posicion_deseada= 3
columnas.insert(posicion_deseada, 'numero hijos')

In [37]:
df=df[columnas]

df

Unnamed: 0,nombre,apellido,email,numero hijos,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,1,35.0,20000,Madrid,Yes
1,Luis,Santos,luislopez@gmail.com,2,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,4,35.0,50000,Malaga,Yes
3,Andres,Santos,andreslopez@gmail.com,2,,17000,Cadiz,No
4,Monica,Castro,monicacastro@gmail.com,0,53.0,20000,Burgos,
5,Ana,Salmeron,saraperez@gmail.com,1,67.0,65000,Madrid,Yes


In [None]:
#para concatenar columnas usamos

df['nombre'] + ' ' + df['apellido']

0       Marta Ruiz
1      Luis Santos
2      Ana Santana
3    Andres Santos
4    Monica Castro
5     Ana Salmeron
dtype: object

2. Luego, en este caso, queremos crear una nueva columna "*nombre_apellido*", que contenga los valores de las columnas "*nombre*" y "*apellido*" separados por un espacio.

In [None]:
df['nombre_apellido'] = df['nombre']+ ' ' +df['apellido']

df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado,nombre_apellido
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes,Marta Ruiz
1,Luis,Santos,luislopez@gmail.com,28.0,25000,Valencia,No,Luis Santos
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes,Ana Santana
3,Andres,Santos,andreslopez@gmail.com,,17000,Cadiz,No,Andres Santos
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,,Monica Castro
5,Ana,Salmeron,saraperez@gmail.com,67.0,65000,Madrid,Yes,Ana Salmeron




---


Ahora vamos a quitar columnas utilizando el método `drop()` de Pandas.

Más info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html).

In [None]:
df.drop(columns= ['nombre', 'apellido'])

Unnamed: 0,email,edad,salario,ciudad,casado,nombre_apellido
0,martaruiz@gmail.com,35.0,20000,Madrid,Yes,Marta Ruiz
1,luislopez@gmail.com,28.0,25000,Valencia,No,Luis Santos
2,anasantana@gmail.com,35.0,50000,Malaga,Yes,Ana Santana
3,andreslopez@gmail.com,,17000,Cadiz,No,Andres Santos
4,monicacastro@gmail.com,53.0,20000,Burgos,,Monica Castro
5,saraperez@gmail.com,67.0,65000,Madrid,Yes,Ana Salmeron


In [None]:
# Como en casos anteriores, vemos que no ha hecho el cambio permanente.

df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado,nombre_apellido
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes,Marta Ruiz
1,Luis,Santos,luislopez@gmail.com,28.0,25000,Valencia,No,Luis Santos
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes,Ana Santana
3,Andres,Santos,andreslopez@gmail.com,,17000,Cadiz,No,Andres Santos
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,,Monica Castro
5,Ana,Salmeron,saraperez@gmail.com,67.0,65000,Madrid,Yes,Ana Salmeron


Procedemos a realizar el cambio permanente, que se consigue con el parámetro `inplace=True`

In [None]:
df.drop(columns= ['nombre', 'apellido'], inplace=True)

df

Unnamed: 0,email,edad,salario,ciudad,casado,nombre_apellido
0,martaruiz@gmail.com,35.0,20000,Madrid,Yes,Marta Ruiz
1,luislopez@gmail.com,28.0,25000,Valencia,No,Luis Santos
2,anasantana@gmail.com,35.0,50000,Malaga,Yes,Ana Santana
3,andreslopez@gmail.com,,17000,Cadiz,No,Andres Santos
4,monicacastro@gmail.com,53.0,20000,Burgos,,Monica Castro
5,saraperez@gmail.com,67.0,65000,Madrid,Yes,Ana Salmeron


Para revertir lo hecho y convertir la columna "*nombre_apellido*" en dos columnas una para "*nombre*" y otra para "*apellido*", necesitamos utilizar el método `str.split()` de Series de Pandas.

Más info en [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.split.html#pandas.Series.str.split).

1. Primero vemos cómo funciona el método `str.split()`.

In [None]:
df['nombre_apellido'].str.split(' ')

0       [Marta, Ruiz]
1      [Luis, Santos]
2      [Ana, Santana]
3    [Andres, Santos]
4    [Monica, Castro]
5     [Ana, Salmeron]
Name: nombre_apellido, dtype: object

2. Ahora, para que pongamos estos datos en dos columnas necesitamos usar el parámetro `expand=True`.

>> Este parámetro expande las cadenas divididas en columnas separadas, de tal forma que:
+   Si es `True`, devuelve DataFrame / MultiIndice expandiendo la dimensionalidad (creando una columna para cada string resultante de la división (split).
+   Si es `False`, devuelve Series/Index, que contiene listas de cadenas.

In [None]:
df['nombre_apellido'].str.split(' ', expand=True)

Unnamed: 0,0,1
0,Marta,Ruiz
1,Luis,Santos
2,Ana,Santana
3,Andres,Santos
4,Monica,Castro
5,Ana,Salmeron


Evidentemente, ahora toca realizar esta acción en el dataframe, creando las dos nuevas columnas "*nombre*" y "*apellido*" y asignandoles como valores el resultado de divivir el valor de la columna "*nombre_apellido*", tal y como hemos hecho en la sentencia del snippet anterior.

In [None]:
df[['nombre', 'apellido']] = df['nombre_apellido'].str.split(' ', expand=True)

In [None]:
# Visualizamos los cambios realizados.

df

Unnamed: 0,email,edad,salario,ciudad,casado,nombre_apellido,nombre,apellido
0,martaruiz@gmail.com,35.0,20000,Madrid,Yes,Marta Ruiz,Marta,Ruiz
1,luislopez@gmail.com,28.0,25000,Valencia,No,Luis Santos,Luis,Santos
2,anasantana@gmail.com,35.0,50000,Malaga,Yes,Ana Santana,Ana,Santana
3,andreslopez@gmail.com,,17000,Cadiz,No,Andres Santos,Andres,Santos
4,monicacastro@gmail.com,53.0,20000,Burgos,,Monica Castro,Monica,Castro
5,saraperez@gmail.com,67.0,65000,Madrid,Yes,Ana Salmeron,Ana,Salmeron




---


Podemos añadir una fila a un dataframe, sin importar si queremos rellenar todos los valores de todas las columnas o solo una parte de ellas.

En el siguiente snippet, vamos a añadir una nueva persona y solo vamos a añadir el campo "*nombre*". El resto de columnas se rellenarán como ***NaN***.

In [None]:
fila = {'nombre':'Peter'}

df.loc[len(df)] = fila

# Puedes añadir al diccionario los otros valores para llenar todas las celdas
# con informacion sobre Peter si quieres hacer pruebas.

In [None]:
df

Unnamed: 0,email,edad,salario,ciudad,casado,nombre_apellido,nombre,apellido
0,martaruiz@gmail.com,35.0,20000.0,Madrid,Yes,Marta Ruiz,Marta,Ruiz
1,luislopez@gmail.com,28.0,25000.0,Valencia,No,Luis Santos,Luis,Santos
2,anasantana@gmail.com,35.0,50000.0,Malaga,Yes,Ana Santana,Ana,Santana
3,andreslopez@gmail.com,,17000.0,Cadiz,No,Andres Santos,Andres,Santos
4,monicacastro@gmail.com,53.0,20000.0,Burgos,,Monica Castro,Monica,Castro
5,saraperez@gmail.com,67.0,65000.0,Madrid,Yes,Ana Salmeron,Ana,Salmeron
6,,,,,,,Peter,


In [None]:
# Para quitar filas usamos los indices

df = df.drop(index=6)

Unnamed: 0,email,edad,salario,ciudad,casado,nombre_apellido,nombre,apellido
0,martaruiz@gmail.com,35.0,20000,Madrid,Yes,Marta Ruiz,Marta,Ruiz
1,luislopez@gmail.com,28.0,25000,Valencia,No,Luis Santos,Luis,Santos
2,anasantana@gmail.com,35.0,50000,Malaga,Yes,Ana Santana,Ana,Santana
3,andreslopez@gmail.com,,17000,Cadiz,No,Andres Santos,Andres,Santos
4,monicacastro@gmail.com,53.0,20000,Burgos,,Monica Castro,Monica,Castro
5,saraperez@gmail.com,67.0,65000,Madrid,Yes,Ana Salmeron,Ana,Salmeron


In [None]:
# Para eliminar mas filas de golpe enumeramos los índices a eliminar.

df = df.drop(index=[3,4,5])

df

Unnamed: 0,email,edad,salario,ciudad,casado,nombre_apellido,nombre,apellido
0,martaruiz@gmail.com,35,20000,Madrid,Yes,Marta Ruiz,Marta,Ruiz
1,luislopez@gmail.com,28,25000,Valencia,No,Luis Santos,Luis,Santos
2,anasantana@gmail.com,35,50000,Malaga,Yes,Ana Santana,Ana,Santana


In [None]:
# Para eliminar mas filas usando el slicing o rango de indices

df=df.drop(df.index[1:3])

df

Unnamed: 0,email,edad,salario,ciudad,casado,nombre_apellido,nombre,apellido
0,martaruiz@gmail.com,35,20000,Madrid,Yes,Marta Ruiz,Marta,Ruiz


# UNIDAD 7. CLASIFICAR DATOS

In [None]:
import pandas as pd
gente={
    'nombre': ['Marta', 'Luis', 'Ana', 'Andres', 'Monica', 'Ana'],
    'apellido': ['Ruiz', 'Lopez', 'Santana', 'Lopez', 'Castro', 'Perez'],
    'email': ['martaruiz@gmail.com', 'luislopez@gmail.com', 'anasantana@gmail.com', 'andreslopez@gmail.com', 'monicacastro@gmail.com', 'saraperez@gmail.com'],
    'edad': [35, 28, 35, 'NaN', 53, 67],
    'salario': [20000, 25000, 50000, 17000, 20000, 65000],
    'ciudad' :['Madrid', 'Valencia', 'Malaga', 'Cadiz', 'Burgos', 'Madrid'],
    'casado': ['Yes', 'No', 'Yes', 'No', 'NaN', 'Yes']
}

In [None]:
df=pd.DataFrame(gente)

df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


In [None]:
#vamos a ordenar

df.sort_values(by='nombre')

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,


In [None]:
#si queremos que esta vez sea en orden descendente

df.sort_values(by='nombre', ascending=False)


Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


In [None]:
#para ordenar los apellidos en orden ascendente y los nombres tambien hacemos
#esto y vemos que los nombres Andres y Luis, de los dos apellidos Lopez tambien estan en orden
#ascendente
df.sort_values(by=['apellido', 'nombre'])

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes


In [None]:
#si ahora queremos que los apellidos esten en orden descendente y los nombres
#en orden ascendente usamos booleanos
df.sort_values(by=['apellido', 'nombre'], ascending=[False, True])

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,


In [None]:
#de nuevo si queremos dejar fijos estos cambios añadiremos el inplace=True
#al final del parentesis y despues de una coma
#df.sort_values(by=['apellido', 'nombre'], ascending=[False, True], inplace=True)

In [None]:
#si queremos tener los indices ordenados otra vez 0, 1, 2, 3, etc,
#escribimos

df.sort_index()

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28.0,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35.0,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
4,Monica,Castro,monicacastro@gmail.com,53.0,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67.0,65000,Madrid,Yes


In [None]:
#si queremos ordenar los datos de una sola columna por ejemplo apellido

df['apellido'].sort_values()

4     Castro
1      Lopez
3      Lopez
5      Perez
0       Ruiz
2    Santana
Name: apellido, dtype: object

In [None]:
#si queremos ver solo los 3 salarios mas altos usamos otra
#funcion nlargest()

df['salario'].nlargest(3)

5    65000
2    50000
1    25000
Name: salario, dtype: int64

In [None]:
#para que nos muestre toda la informacion de esas personas con los 3
#salarios mas altos haremos

df.nlargest(3, 'salario')

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
5,Ana,Perez,saraperez@gmail.com,67,65000,Madrid,Yes
2,Ana,Santana,anasantana@gmail.com,35,50000,Malaga,Yes
1,Luis,Lopez,luislopez@gmail.com,28,25000,Valencia,No


In [None]:
#si queremos hacer lo contrario

df.nsmallest(2, 'salario')

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
3,Andres,Lopez,andreslopez@gmail.com,,17000,Cadiz,No
0,Marta,Ruiz,martaruiz@gmail.com,35.0,20000,Madrid,Yes


# UNIDAD 8. AGREGAR Y AGRUPAR DATOS

In [None]:
import pandas as pd


gentestr={
    'nombre': ['Marta', 'Luis', 'Ana', 'Andres', 'Monica', 'Ana', 'Rocio', 'Pepe'],
    'apellido': ['Ruiz', 'Lopez', 'Santana', 'Lopez', 'Castro', 'Perez', 'Iglesias', 'Fuentes'],
    'email': ['martaruiz@gmail.com', 'luislopez@gmail.com', 'anasantana@gmail.com', 'andreslopez@gmail.com',
    'monicacastro@gmail.com', 'saraperez@gmail.com', 'rocioiglesias@gmail.com', 'pepefuentes@gmail.com'],
    'edad': [35, 28, 35, 49, 53, 67, 73, 19],
    'salario': ['20000', '25000', '50000', '17000', '20000', '65000', '83000', '97000'],
    'ciudad' :['Madrid', 'Valencia', 'Malaga', 'Cadiz', 'Burgos', 'Madrid', 'Madrid', 'Madrid'],
    'casado': ['Yes', 'No', 'Yes', 'No', 'NaN', 'Yes', 'Yes', 'No']
}


In [None]:
df=pd.DataFrame(gentestr)

df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28,25000,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35,50000,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,49,17000,Cadiz,No
4,Monica,Castro,monicacastro@gmail.com,53,20000,Burgos,
5,Ana,Perez,saraperez@gmail.com,67,65000,Madrid,Yes
6,Rocio,Iglesias,rocioiglesias@gmail.com,73,83000,Madrid,Yes
7,Pepe,Fuentes,pepefuentes@gmail.com,19,97000,Madrid,No


In [None]:
#empezamos con funciones de agregacion, empezamos con la mediana de salarios
df['salario'].median()

37500.0

In [None]:
#la moda o numero mas repetido de la lista
df['salario'].mode()

0    20000
Name: salario, dtype: object

In [None]:
#tambien podemos ver la mediana de todo el DF
df.median()

  df.median()


edad          42.0
salario    37500.0
dtype: float64

In [None]:
df.describe()

Unnamed: 0,edad
count,8.0
mean,44.875
std,18.946824
min,19.0
25%,33.25
50%,42.0
75%,56.5
max,73.0


In [None]:
#la funcion count() nos da el numero de personas que contestan
df['casado'].count()

8

In [None]:
#para saber cuantos contestaron Yes y cuantos No usamos otra funcion
df['casado'].value_counts()

Yes    4
No     3
NaN    1
Name: casado, dtype: int64

In [None]:
#si queremos ver cual es la ciudad mas comun en nuestro DF
df['ciudad'].value_counts()

Madrid      4
Valencia    1
Malaga      1
Cadiz       1
Burgos      1
Name: ciudad, dtype: int64

In [None]:
#si queremos ver los resultados anteriores pero en porcentajes usamos
#la funcion normalize
df['ciudad'].value_counts(normalize=True)

Madrid      0.500
Valencia    0.125
Malaga      0.125
Cadiz       0.125
Burgos      0.125
Name: ciudad, dtype: float64

In [None]:
#vamos a ver otras funciones de agregacion como groupby() y get_group()

df.groupby(['ciudad'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7ffaebe6dbd0>

In [None]:
ciudad_grupo=df.groupby(['ciudad'])

In [None]:
#queremos que nos agregue toda la informacion que tiene la ciudad Madrid
ciudad_grupo.get_group('Madrid')

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000,Madrid,Yes
5,Ana,Perez,saraperez@gmail.com,67,65000,Madrid,Yes
6,Rocio,Iglesias,rocioiglesias@gmail.com,73,83000,Madrid,Yes
7,Pepe,Fuentes,pepefuentes@gmail.com,19,97000,Madrid,No


In [None]:
#deberiamos obtener el mismo resultado creando una variable filt como
#hicimos anteriormente

filt = df['ciudad'] == 'Madrid'
df.loc[filt]

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000,Madrid,Yes
5,Ana,Perez,saraperez@gmail.com,67,65000,Madrid,Yes
6,Rocio,Iglesias,rocioiglesias@gmail.com,73,83000,Madrid,Yes
7,Pepe,Fuentes,pepefuentes@gmail.com,19,97000,Madrid,No


In [None]:
#si del grupo anterior solo nos interesa ahora saber los salarios que
#algunas personas ganan en Madrid usaremos

filt = df['ciudad'] == 'Madrid'
df.loc[filt]['salario'].value_counts()

20000    1
65000    1
83000    1
97000    1
Name: salario, dtype: int64

In [None]:
#queremos saber cuantas personas de Madrid tienen la letra Y en la respuesta
#sobre si estan casados o no. usamos funcion contains() y la funcion sum()
filt=df['ciudad']== 'Madrid'
df.loc[filt]['casado'].str.contains('Y').sum()

3

In [None]:
#si queremos ver cuantas personas tienen la letra 'o' en su respuesta
filt=df['ciudad']== 'Madrid'
df.loc[filt]['casado'].str.contains('o').sum()

1

In [None]:
#si queremos ver cuantas personas en la ciudad de Madrid tienen la letra 'u' en
#su apellido
filt=df['ciudad']== 'Madrid'
df.loc[filt]['apellido'].str.contains('u').sum()


2

In [None]:
#muestra en pantalla los nombres de las personas de Madrid cuyos apellidos
#contienen una letra 'i'
filt = (df['ciudad'] == 'Madrid') & df['apellido'].str.contains('I', case=False)
nombre_filtro = df.loc[filt, 'nombre']
nombre_filtro

0    Marta
6    Rocio
Name: nombre, dtype: object

In [None]:
#muestra en pantalla los nombres de las personas de Madrid cuyos apellidos
#contienen una letra 'i' y tambien tienen mas de 50 años
filt = (df['ciudad'] == 'Madrid') & (df['edad']>50) & df['apellido'].str.contains('I', case=False)
nombre_filtro = df.loc[filt, 'nombre']
nombre_filtro

6    Rocio
Name: nombre, dtype: object

# UNIDAD 9. LIMPIEZA DE DATOS

In [None]:
import pandas as pd

In [None]:
gentelimp={
    'nombre': ['Marta', 'Luis', 'Ana', 'Andres', None, 'Ana'],
    'apellido': ['Ruiz', 'Lopez', 'Santana', None, 'Castro', 'Perez'],
    'email': ['martaruiz@gmail.com', 'luislopez@gmail.com', 'anasantana@gmail.com', 'andreslopez@gmail.com', None, 'saraperez@gmail.com'],
    'edad': [35, 28, 35, 49, 53, 67],
    'salario': [20000, 25000, None, 17000, 20000, 65000],
    'ciudad' :['Madrid', 'Valencia', 'Malaga', 'Cadiz', 'Burgos', None],
    'casado': ['Yes', 'No', 'Yes', 'No', None, None]
}

In [None]:
df=pd.DataFrame(gentelimp)

df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000.0,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28,25000.0,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35,,Malaga,Yes
3,Andres,,andreslopez@gmail.com,49,17000.0,Cadiz,No
4,,Castro,,53,20000.0,Burgos,
5,Ana,Perez,saraperez@gmail.com,67,65000.0,,


In [None]:
#algunas veces los mejor es eliminar las filas que contienen
#datos sucios o faltantes. vamos a usar la funcion dropna()
#drop (suprimir) na (not available o no disponible)

df.dropna()

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000.0,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28,25000.0,Valencia,No


In [None]:
#para entender como funciona la funcion dropna() vamos a usar una sintaxis
#mas completa y vemos que nos da el mismo resultado que antes. 'axis' puede ser
#igual a  'index' para referirse a filas o a 'columns' para referirse a columnas
#'how' puede ser 'any' es decir con que haya una sola celda con None elimina toda
#la fila o columna y 'how' tambien puede ser 'all' en cuyo caso solo elimina
#la fila o la columna si todas las celdas tienen None

df.dropna(axis='index', how='any')

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000.0,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28,25000.0,Valencia,No


In [None]:
df.dropna(axis='columns', how='any')

Unnamed: 0,edad
0,35
1,28
2,35
3,49
4,53
5,67


In [None]:
df.dropna(axis='index', how='all')

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000.0,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28,25000.0,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35,,Malaga,Yes
3,Andres,,andreslopez@gmail.com,49,17000.0,Cadiz,No
4,,Castro,,53,20000.0,Burgos,
5,Ana,Perez,saraperez@gmail.com,67,65000.0,,


In [None]:
#vamos a eliminar filas o columnas que no tengan emails ya que consideramos
#imprescindible que tengan el email como minimo
#vamos a usar otro parametro que se llama 'subset'

df.dropna(axis='index', how='any', subset = ['email'])

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000.0,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28,25000.0,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35,,Malaga,Yes
3,Andres,,andreslopez@gmail.com,49,17000.0,Cadiz,No
5,Ana,Perez,saraperez@gmail.com,67,65000.0,,


In [None]:
#podemos pasarle varias columnas a la funcion 'subset'
df.dropna(axis='index', how='any', subset = ['email', 'casado'])


Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000.0,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28,25000.0,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35,,Malaga,Yes
3,Andres,,andreslopez@gmail.com,49,17000.0,Cadiz,No


In [None]:
#si tanto email como casado tiene que ser None entonces usaremos
#el how='all'

df.dropna(axis='index', how='all', subset = ['email', 'casado'])


Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000.0,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28,25000.0,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35,,Malaga,Yes
3,Andres,Lopez,andreslopez@gmail.com,49,17000.0,Cadiz,No
5,Ana,Perez,saraperez@gmail.com,67,65000.0,Madrid,


In [None]:
import pandas as pd

gentelimp2={
    'nombre': ['Marta', 'Luis', 'Ana', 'Andres', None, 'Ana'],
    'apellido': ['Ruiz', 'Lopez', 'Santana', None, 'Castro', 'Perez'],
    'email': ['martaruiz@gmail.com', 'luislopez@gmail.com', 'anasantana@gmail.com', 'andreslopez@gmail.com', None, 'saraperez@gmail.com'],
    'edad': [35, 28, 35, 49, 53, 67],
    'salario': [20000, 25000, None, 17000, 20000, 65000],
    'ciudad' :['Madrid', 'Valencia', 'Malaga', 'Cadiz', 'Burgos', None],
    'casado': ['Yes', 'No', 'Yes', 'No','Missing', 'None']
}

In [None]:
df=pd.DataFrame(gentelimp2)

df

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000.0,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28,25000.0,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35,,Malaga,Yes
3,Andres,,andreslopez@gmail.com,49,17000.0,Cadiz,No
4,,Castro,,53,20000.0,Burgos,Missing
5,Ana,Perez,saraperez@gmail.com,67,65000.0,,


In [None]:
#si queremos substituir los 'Missing' y los 'NA' por None lo
#podemos hacer asi
df.replace('na', None)
df.replace('Missing', None)

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000.0,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28,25000.0,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35,,Malaga,Yes
3,Andres,,andreslopez@gmail.com,49,17000.0,Cadiz,No
4,,Castro,,53,20000.0,Burgos,
5,Ana,Perez,saraperez@gmail.com,67,65000.0,,


In [None]:
#si queremos ver que celdas tienen datos faltantes o extraños podemos
#usar la funcion isna()

df.isna()

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,True,False,False
3,False,True,False,False,False,False,False
4,True,False,True,False,False,False,False
5,False,False,False,False,False,True,False


In [None]:
#si queremos llenar los None (que previamente, hemos cambiado con el replace
#no olvidar inplace=True),
#con algun tipo de datos por ejemplo con NO SABE NO CONTESTA. usamos la funcion
#fillna()


df.fillna('NSNC')

Unnamed: 0,nombre,apellido,email,edad,salario,ciudad,casado
0,Marta,Ruiz,martaruiz@gmail.com,35,20000.0,Madrid,Yes
1,Luis,Lopez,luislopez@gmail.com,28,25000.0,Valencia,No
2,Ana,Santana,anasantana@gmail.com,35,NSNC,Malaga,Yes
3,Andres,NSNC,andreslopez@gmail.com,49,17000.0,Cadiz,No
4,NSNC,Castro,NSNC,53,20000.0,Burgos,Missing
5,Ana,Perez,saraperez@gmail.com,67,65000.0,NSNC,


In [None]:









#otra cosa que podemos hacer es ver si nuestras celdas tienen un string
#o un integer, es decir queremos saber el tipo de dato. object es lo
#mismo que string en Pandas

df.dtypes

nombre       object
apellido     object
email        object
edad          int64
salario     float64
ciudad       object
casado       object
dtype: object

In [None]:
df['edad']=df['edad'].astype(int)

In [None]:
#podiamos haberlo cambiado a un float tambien
df.dtypes

nombre       object
apellido     object
email        object
edad          int64
salario     float64
ciudad       object
casado       object
dtype: object

In [None]:
#ahora podemos calcular la media de edad de la DF

df['edad'].mean()

44.5

In [None]:
#existe otra funcion unique() para saber cuantos diferentes tipos de datos puede
#tener una columna por ejemplo, vamos a verlo para la columna 'casado'
df['casado'].unique()

array(['Yes', 'No', None], dtype=object)