# **Introducción al análisis de datos en Python** 
#### Profesora: Catalina Bernal

## Clase 4. Continuación Pandas

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Cada variable de nuestro dataframe partirá de una lista
nombres = ["Jose", "Esteban", "Elena", "Ana", "Julian", "Juan"]
sexo = ["M", "M", "F", "F", "M", None]
edad = [24, 25, 32, 45, 52, 20]
peso = [75, 80, 60, 86, 72, 70]

In [3]:
# Creamos un diccionario con toda la información
un_diccionario = {
    "nombres": nombres,
    "sexo": sexo,
    "edad": edad,
    "peso": peso
}

In [4]:
un_diccionario

{'nombres': ['Jose', 'Esteban', 'Elena', 'Ana', 'Julian', 'Juan'],
 'sexo': ['M', 'M', 'F', 'F', 'M', None],
 'edad': [24, 25, 32, 45, 52, 20],
 'peso': [75, 80, 60, 86, 72, 70]}

In [5]:
# Construimos nuestro primer dataframe
data = pd.DataFrame(un_diccionario)

In [6]:
# Visualizamos nuestro dataframe
data

Unnamed: 0,nombres,sexo,edad,peso
0,Jose,M,24,75
1,Esteban,M,25,80
2,Elena,F,32,60
3,Ana,F,45,86
4,Julian,M,52,72
5,Juan,,20,70


## Pandas avanzado

### Modificación de valores
Las columnas dentro de un dataframe a su vez son un objeto. Estos se conocen como `Series` y son una estructura de datos unidimensional que contiene una secuencia de valores y una etiqueta de índice para cada uno de ellos. Se puede pensar en una serie como una columna en una hoja de cálculo o como un array unidimensional con etiquetas de índice.

Una serie de Pandas se puede crear a partir de una lista, un array NumPy, un diccionario o incluso otro objeto de serie. La etiqueta de índice por defecto para cada elemento de la serie es simplemente un rango de números enteros de 0 a n-1, donde n es el número de elementos en la serie. Sin embargo, se puede especificar etiquetas de índice personalizadas para cada elemento de la serie.

In [7]:
type(data["nombres"])

pandas.core.series.Series

Podemos comenzar editando valores o celdas particulares. Por ejemplo, el sexo de Juan está como nulo. Vamos a definirlo como masculino

In [8]:
data.loc[data.nombres == "Juan", "sexo"]

5    None
Name: sexo, dtype: object

In [9]:
data.loc[data.nombres == "Juan", "sexo"] = "M"

In [10]:
data

Unnamed: 0,nombres,sexo,edad,peso
0,Jose,M,24,75
1,Esteban,M,25,80
2,Elena,F,32,60
3,Ana,F,45,86
4,Julian,M,52,72
5,Juan,M,20,70


Del mismo modo, también podemos editar columnas. Actualmente tenemos la edad en años, pasemosla a días.

In [11]:
data["edad"]*365

0     8760
1     9125
2    11680
3    16425
4    18980
5     7300
Name: edad, dtype: int64

In [12]:
data["edad_dias"] = data["edad"]*365

In [13]:
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias
0,Jose,M,24,75,8760
1,Esteban,M,25,80,9125
2,Elena,F,32,60,11680
3,Ana,F,45,86,16425
4,Julian,M,52,72,18980
5,Juan,M,20,70,7300


También podemos crear una nueva variable

In [14]:
data["nueva_variable"] = [1,2,3,np.nan,np.nan,np.nan]

In [15]:
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable
0,Jose,M,24,75,8760,1.0
1,Esteban,M,25,80,9125,2.0
2,Elena,F,32,60,11680,3.0
3,Ana,F,45,86,16425,
4,Julian,M,52,72,18980,
5,Juan,M,20,70,7300,


Otro método para crear una nueva variable es usando el método `.assign()`

In [16]:
data = data.assign(nueva_variable2 = np.nan)
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable,nueva_variable2
0,Jose,M,24,75,8760,1.0,
1,Esteban,M,25,80,9125,2.0,
2,Elena,F,32,60,11680,3.0,
3,Ana,F,45,86,16425,,
4,Julian,M,52,72,18980,,
5,Juan,M,20,70,7300,,


In [20]:
data.loc[data.edad<=24,'nueva_variable'] = 'Rango 1: 18-24'
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable,nueva_variable2
0,Jose,M,24,75,8760,Rango 1: 18-24,
1,Esteban,M,25,80,9125,Rango 2: 25-32,
2,Elena,F,32,60,11680,Rango 2: 25-32,
3,Ana,F,45,86,16425,Rango 3: 33-54,
4,Julian,M,52,72,18980,Rango 3: 33-54,
5,Juan,M,20,70,7300,Rango 1: 18-24,


In [None]:
data.loc[data.edad<=24,'nueva_variable']

In [17]:
data.loc[data.edad<=24,'nueva_variable'] = 'Rango 1: 18-24'
data.loc[(data.edad>=25) & (data.edad<=32),'nueva_variable'] = 'Rango 2: 25-32'
data.loc[(data.edad>=33) & (data.edad<=54),'nueva_variable'] = 'Rango 3: 33-54'
data.loc[(data.edad>=55),'nueva_variable'] = 'Rango 4: 55+'
data

  data.loc[data.edad<=24,'nueva_variable'] = 'Rango 1: 18-24'


Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable,nueva_variable2
0,Jose,M,24,75,8760,Rango 1: 18-24,
1,Esteban,M,25,80,9125,Rango 2: 25-32,
2,Elena,F,32,60,11680,Rango 2: 25-32,
3,Ana,F,45,86,16425,Rango 3: 33-54,
4,Julian,M,52,72,18980,Rango 3: 33-54,
5,Juan,M,20,70,7300,Rango 1: 18-24,


El valor con el que se modifica cada variable no tiene que ser el mismo para todas.

In [24]:
apellido = ["Urrutia", "Carvajal", "Gómez", "Murcia", "Pardo", "Lopez"]

In [25]:
data["nombres"] = data["nombres"] + " " + apellido

In [26]:
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable,nueva_variable2,nueva variable
0,Jose Urrutia,M,24,75,8760,Rango 1: 18-24,,0
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32,,0
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32,,0
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54,,0
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54,,0
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24,,0


### Estadísticas descriptivas
Anteriormente pudimos ver como el método `.describe()` me daba un resumen de toda la base. Sin embargo, en esta sección veremos cada una de las principales funciones para sacar las estadísticas

In [28]:
data.describe(percentiles=[0.90, 0.95, 0.99])

Unnamed: 0,edad,peso,edad_dias,nueva_variable2,nueva variable
count,6.0,6.0,6.0,0.0,6.0
mean,33.0,73.833333,12045.0,,0.0
std,12.806248,8.908797,4674.280693,,0.0
min,20.0,60.0,7300.0,,0.0
50%,28.5,73.5,10402.5,,0.0
90%,48.5,83.0,17702.5,,0.0
95%,50.25,84.5,18341.25,,0.0
99%,51.65,85.7,18852.25,,0.0
max,52.0,86.0,18980.0,,0.0


In [29]:
# Suma de todas las columnas
data.sum(axis=0)

nombres            Jose UrrutiaEsteban CarvajalElena GómezAna Mur...
sexo                                                          MMFFMM
edad                                                             198
peso                                                             443
edad_dias                                                      72270
nueva_variable     Rango 1: 18-24Rango 2: 25-32Rango 2: 25-32Rang...
nueva_variable2                                                  0.0
nueva variable                                                     0
dtype: object

In [30]:
# Suma por fila
data.sum(axis = 1, numeric_only = True)

0     8859.0
1     9230.0
2    11772.0
3    16556.0
4    19104.0
5     7390.0
dtype: float64

In [31]:
# Suma de toda la columna peso
data["peso"].sum()

np.int64(443)

In [32]:
# Dato mínimo por columna
data.min()

nombres                Ana Murcia
sexo                            F
edad                           20
peso                           60
edad_dias                    7300
nueva_variable     Rango 1: 18-24
nueva_variable2               NaN
nueva variable                  0
dtype: object

In [33]:
# Dato máximo por columna
data.max()

nombres              Julian Pardo
sexo                            M
edad                           52
peso                           86
edad_dias                   18980
nueva_variable     Rango 3: 33-54
nueva_variable2               NaN
nueva variable                  0
dtype: object

In [35]:
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable,nueva_variable2,nueva variable
0,Jose Urrutia,M,24,75,8760,Rango 1: 18-24,,0
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32,,0
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32,,0
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54,,0
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54,,0
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24,,0


In [34]:
# ¿Quién tiene la edad mínima?
data.edad.idxmin(), data.edad.argmin()

(5, np.int64(5))

In [37]:
data

Unnamed: 0_level_0,sexo,edad,peso,edad_dias,nueva_variable,nueva_variable2,nueva variable
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jose Urrutia,M,24,75,8760,Rango 1: 18-24,,0
Esteban Carvajal,M,25,80,9125,Rango 2: 25-32,,0
Elena Gómez,F,32,60,11680,Rango 2: 25-32,,0
Ana Murcia,F,45,86,16425,Rango 3: 33-54,,0
Julian Pardo,M,52,72,18980,Rango 3: 33-54,,0
Juan Lopez,M,20,70,7300,Rango 1: 18-24,,0


In [36]:
# ¿Quién tiene la edad mínima?
data.set_index("nombres", inplace=True)
data.edad.idxmin(), data.edad.argmin()

('Juan Lopez', np.int64(5))

In [39]:
# Juan López tiene la edad mínima
data.iloc[data.edad.argmin(),]

sexo                            M
edad                           20
peso                           70
edad_dias                    7300
nueva_variable     Rango 1: 18-24
nueva_variable2               NaN
nueva variable                  0
Name: Juan Lopez, dtype: object

In [40]:
# ¿Cuál es el índice de la persona con mayor peso?
data.peso.idxmax()

'Ana Murcia'

In [43]:
data.loc[data.peso.idxmax(),]

sexo                            F
edad                           45
peso                           86
edad_dias                   16425
nueva_variable     Rango 3: 33-54
nueva_variable2               NaN
nueva variable                  0
Name: Ana Murcia, dtype: object

In [44]:
# Media de las variables
data.mean(numeric_only = True)

edad                  33.000000
peso                  73.833333
edad_dias          12045.000000
nueva_variable2             NaN
nueva variable         0.000000
dtype: float64

In [45]:
# Datos medianos
data.median(numeric_only = True)

edad                  28.5
peso                  73.5
edad_dias          10402.5
nueva_variable2        NaN
nueva variable         0.0
dtype: float64

In [None]:
data.reset_index(inplace=True) 
# data = data.reset_index()

### Aplicar funciones a las columnas
En Pandas, el método `apply` se utiliza para aplicar una función a una serie o a un dataframe. El método `apply` toma como argumento una función y la aplica a cada elemento de la serie o del dataframe, devolviendo una nueva serie o dataframe con los resultados de la función aplicada a cada elemento.

La función que se aplica en el método `apply` puede ser una función lambda o una función definida por el usuario. Esta función debe tomar como argumento un elemento de la serie o dataframe y devolver el resultado de aplicar la función al elemento.

El método `apply` se puede aplicar de varias formas en un dataframe:

- Aplicar una función a una columna específica: Se puede utilizar el método `apply` en una columna específica de un dataframe utilizando la siguiente sintaxis:

```python
dataframe["nombre_columna"].apply(funcion)
```

Donde "nombre_columna" es el nombre de la columna en la que se desea aplicar la función y "funcion" es la función que se desea aplicar a cada elemento de la columna.

- Aplicar una función a un dataframe completo: Se puede utilizar el método `apply` en un dataframe completo utilizando la siguiente sintaxis:

```python
dataframe.apply(funcion)
```

Donde "funcion" es la función que se desea aplicar a cada elemento del dataframe.

- Aplicar una función a una fila específica: Se puede utilizar el método `apply` en una fila específica de un dataframe utilizando la siguiente sintaxis:

```python
dataframe.loc[etiqueta_fila].apply(funcion)
```

Donde "etiqueta_fila" es la etiqueta de la fila en la que se desea aplicar la función y "funcion" es la función que se desea aplicar a cada elemento de la fila.

- el método `apply` también puede ser utilizado con funciones **lambda**, que son funciones anónimas y pequeñas que se definen dentro de una línea de código. Por ejemplo, si se quisiera aplicar una función **lambda** que tome como entrada una cadena de caracteres y devuelva la versión en mayúsculas de la misma, se podría utilizar el método apply de la siguiente manera:

```python
dataframe['nombre_columna'].apply(lambda x: x.upper())
```

<center>
<div>
<img src="img/lambda.png" width="200"/>
</div>

<div>
<img src="img/lambda1.png" width="200"/>
</div>
</center>

El método `apply` también puede aplicarse a múltiples columnas o filas utilizando la opción axis. Si `axis=0`, la función se aplicará a cada columna del dataframe. Si `axis=1`, la función se aplicará a cada fila del dataframe.

En resumen, el método `apply` se utiliza en Pandas para aplicar una función a una serie o dataframe, y puede utilizarse de diferentes maneras para aplicar la función.



In [47]:
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable,nueva_variable2,nueva variable
0,Jose Urrutia,M,24,75,8760,Rango 1: 18-24,,0
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32,,0
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32,,0
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54,,0
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54,,0
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24,,0


In [48]:
# Multiplicar x 2 todas las celdas
data.apply(lambda i: i*2)

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable,nueva_variable2,nueva variable
0,Jose UrrutiaJose Urrutia,MM,48,150,17520,Rango 1: 18-24Rango 1: 18-24,,0
1,Esteban CarvajalEsteban Carvajal,MM,50,160,18250,Rango 2: 25-32Rango 2: 25-32,,0
2,Elena GómezElena Gómez,FF,64,120,23360,Rango 2: 25-32Rango 2: 25-32,,0
3,Ana MurciaAna Murcia,FF,90,172,32850,Rango 3: 33-54Rango 3: 33-54,,0
4,Julian PardoJulian Pardo,MM,104,144,37960,Rango 3: 33-54Rango 3: 33-54,,0
5,Juan LopezJuan Lopez,MM,40,140,14600,Rango 1: 18-24Rango 1: 18-24,,0


In [49]:
# Convertir la edad de días a años
data["edad_dias"].apply(lambda x: x/365)

0    24.0
1    25.0
2    32.0
3    45.0
4    52.0
5    20.0
Name: edad_dias, dtype: float64

In [50]:
def funcion_ayuda(x):
    return x/365

In [52]:
funcion_ayuda(45678)

125.14520547945206

In [None]:
data.edad_dias.apply(funcion_ayuda)

0    24.0
1    25.0
2    32.0
3    45.0
4    52.0
5    20.0
Name: edad_dias, dtype: float64

In [55]:
data[['edad','peso']].apply(np.mean, axis=1)

0    49.5
1    52.5
2    46.0
3    65.5
4    62.0
5    45.0
dtype: float64

### Eliminar filas y columnas

In [56]:
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable,nueva_variable2,nueva variable
0,Jose Urrutia,M,24,75,8760,Rango 1: 18-24,,0
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32,,0
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32,,0
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54,,0
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54,,0
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24,,0


In [57]:
# Borre la fila identificada como 1
data.drop(1) 

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable,nueva_variable2,nueva variable
0,Jose Urrutia,M,24,75,8760,Rango 1: 18-24,,0
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32,,0
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54,,0
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54,,0
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24,,0


In [58]:
data.reset_index(inplace=True)
data.head()

Unnamed: 0,index,nombres,sexo,edad,peso,edad_dias,nueva_variable,nueva_variable2,nueva variable
0,0,Jose Urrutia,M,24,75,8760,Rango 1: 18-24,,0
1,1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32,,0
2,2,Elena Gómez,F,32,60,11680,Rango 2: 25-32,,0
3,3,Ana Murcia,F,45,86,16425,Rango 3: 33-54,,0
4,4,Julian Pardo,M,52,72,18980,Rango 3: 33-54,,0


In [59]:
# Borre la columna index y nueva_variable2
data.drop(columns = ["index", "nueva_variable2", "nueva variable"], inplace = True) 

In [60]:
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable
0,Jose Urrutia,M,24,75,8760,Rango 1: 18-24
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24


In [61]:
# Creemos un valor faltante
data.loc[0, "nombres"] = np.nan

In [69]:
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable
0,,M,24,75,8760,Rango 1: 18-24
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24


In [None]:
# Eliminamos las filas con valores faltantes
data_sin_nulos = data.dropna(subset=["edad", "nombres"]).copy()

In [72]:
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable
0,,M,24,75,8760,Rango 1: 18-24
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24


In [68]:
data.isna().sum()

nombres           1
sexo              0
edad              0
peso              0
edad_dias         0
nueva_variable    0
dtype: int64

### "Pegues" de bases de datos
La función `pd.concat` en Pandas se utiliza para concatenar dos o más objetos de Pandas a lo largo de un eje específico. Los objetos de Pandas pueden ser dataframes o series. La concatenación implica unir los objetos uno al lado del otro o uno debajo del otro, dependiendo del eje especificado.

La sintaxis básica de `pd.concat` es la siguiente:
```python
pd.concat(objetos, axis = 0, join = 'outer', ignore_index = False)
```
Donde:

- `objetos`: es una lista o tupla de objetos de Pandas que se desea concatenar.
- `axis`: especifica el eje a lo largo del cual se realizará la concatenación. Si `axis=0`, se concatenarán los objetos uno debajo del otro (verticalmente). Si `axis=1`, se concatenarán los objetos uno al lado del otro (horizontalmente).
- `join`: especifica el tipo de unión que se desea realizar. Puede ser `'inner'` (intersección de los índices), `'outer'` (unión de los índices) o `'left'` (unión de los índices del objeto en el lado izquierdo).
- `ignore_index`: especifica si se deben ignorar los índices originales y crear nuevos índices. Si es `True`, se crearán nuevos índices.

La función `pd.concat` **es muy útil para combinar dataframes o series que tienen columnas o índices en común**. Por ejemplo, si se tienen dos dataframes que comparten las mismas columnas y se desea combinarlos verticalmente, se podría utilizar el siguiente código:

In [74]:
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df1

Unnamed: 0,A,B
0,1,3
1,2,4


In [75]:
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
df2

Unnamed: 0,A,B
0,5,7
1,6,8


In [81]:
nuevo_df = pd.concat([df1, df2], axis=0, ignore_index=True)
#nuevo_df.reset_index(drop=True) # o ignore_index=True en el concat
nuevo_df

Unnamed: 0,A,B
0,1,3
1,2,4
2,5,7
3,6,8


In [82]:
nuevo_df.loc[0]

A    1
B    3
Name: 0, dtype: int64

En este caso, se utilizará `axis=0` para concatenar los dataframes verticalmente. Los índices de los dataframes originales se conservarán en el nuevo dataframe.

La función `pd.concat` también puede ser utilizada para combinar dataframes o series que no tienen columnas o índices en común. En este caso, las columnas o índices faltantes se rellenarán con valores nulos. Por ejemplo, si se quisiera combinar horizontalmente dos dataframes que tienen diferentes columnas, se podría utilizar el siguiente código:

In [83]:
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df1

Unnamed: 0,A,B
0,1,3
1,2,4


In [84]:
df2 = pd.DataFrame({'C': [5, 6], 'D': [7, 8]})
df2

Unnamed: 0,C,D
0,5,7
1,6,8


In [85]:
nuevo_df = pd.concat([df1, df2], axis=1)
nuevo_df

Unnamed: 0,A,B,C,D
0,1,3,5,7
1,2,4,6,8


In [87]:
nuevo_df = pd.concat([df1, df2], axis=0, ignore_index=True)
nuevo_df

Unnamed: 0,A,B,C,D
0,1.0,3.0,,
1,2.0,4.0,,
2,,,5.0,7.0
3,,,6.0,8.0


En resumen, la función `pd.concat` en Pandas es una herramienta muy útil para combinar dataframes o series a lo largo de un eje específico. Se puede utilizar con diferentes parámetros para personalizar la unión de los objetos y crear un nuevo dataframe o serie.

### Duplicados

In [88]:
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable
0,,M,24,75,8760,Rango 1: 18-24
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24


In [89]:
# Creemos una nueva fila
nueva_fila = pd.DataFrame({"nombres": "Andrea Saldarriaga", "sexo": "F", "edad": 32, "peso": 60,'nueva_variable':'Rango 2: 25-32','edad_dias':12000}, index = [0])

In [90]:
nueva_fila

Unnamed: 0,nombres,sexo,edad,peso,nueva_variable,edad_dias
0,Andrea Saldarriaga,F,32,60,Rango 2: 25-32,12000


In [91]:
data = pd.concat((data, nueva_fila), axis = 0)
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable
0,,M,24,75,8760,Rango 1: 18-24
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24
0,Andrea Saldarriaga,F,32,60,12000,Rango 2: 25-32


In [92]:
# Creemos una fila duplicada
data = pd.concat((data, data.iloc[1:2,]), axis = 0)

In [93]:
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable
0,,M,24,75,8760,Rango 1: 18-24
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24
0,Andrea Saldarriaga,F,32,60,12000,Rango 2: 25-32
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32


In [98]:
# Eliminemos duplicados. Conserva la primera observación
data.drop_duplicates(subset=["sexo", "edad"])

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable
0,,M,24,75,8760,Rango 1: 18-24
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24


In [99]:
data.reset_index(drop=True,inplace=True)
data

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable
0,,M,24,75,8760,Rango 1: 18-24
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24
6,Andrea Saldarriaga,F,32,60,12000,Rango 2: 25-32
7,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32


In [100]:
data2 = pd.DataFrame({'direccion':['Cra 14','Calle 3','Carrera 4','Calle 72','Carrera 24','Calle 127']})

In [101]:
data2

Unnamed: 0,direccion
0,Cra 14
1,Calle 3
2,Carrera 4
3,Calle 72
4,Carrera 24
5,Calle 127


In [102]:
pd.concat([data,data2],axis=1)

Unnamed: 0,nombres,sexo,edad,peso,edad_dias,nueva_variable,direccion
0,,M,24,75,8760,Rango 1: 18-24,Cra 14
1,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32,Calle 3
2,Elena Gómez,F,32,60,11680,Rango 2: 25-32,Carrera 4
3,Ana Murcia,F,45,86,16425,Rango 3: 33-54,Calle 72
4,Julian Pardo,M,52,72,18980,Rango 3: 33-54,Carrera 24
5,Juan Lopez,M,20,70,7300,Rango 1: 18-24,Calle 127
6,Andrea Saldarriaga,F,32,60,12000,Rango 2: 25-32,
7,Esteban Carvajal,M,25,80,9125,Rango 2: 25-32,


In [None]:
data.drop_duplicates(subset='sexo')