# Indice

1. [Nulos](#Nulos)
2. [Filtros](#Filtros)
3. [Ordenar](#Ordenar)
4. [Eliminar duplicados](#Eliminar-duplicados)
5. [Añadir y eliminar registros](#Añadir-eliminar-registros)
6. [Conversión de tipos de datos](#Conversión-tipos-datos)
7. [Datos categóricos](#Datos-categóricos)
8. [Fechas y tiempo](#Fechas-tiempo)




# 1. Nulos<a id="Nulos"></a>

La mayor parte de los datasets presentan registros con uno o varios campos cuya información está ausente (**missing values**), lo que puede generar problemas al intentar representar los datos, realizar ciertas operaciones o aplicarlo a un algoritmo. Por eso es necesario identificar y tratar esos valores ausentes. 

Las dos estrategias de tratamiento son el borrado o la asignación un valor determinado.

`Pandas` toma a los valores `NaN` y `None` como valores ausentes.



In [1]:
import pandas as  pd
import numpy as np

### ¿Qué son los Valores Nulos?

Los valores nulos, también conocidos como valores faltantes o NaN (Not a Number), son marcadores que indican la ausencia de datos en un conjunto de datos. En Pandas, los valores nulos se representan como `NaN` para datos numéricos y `None` para datos de tipo objeto.

### Importancia de la Gestión de Nulos

La presencia de valores nulos puede afectar negativamente el análisis de datos y los modelos predictivos si no se manejan adecuadamente. Algunas consecuencias de no manejar los valores nulos incluyen:

- Sesgo en el análisis estadístico.
- Problemas durante el procesamiento de datos, como errores al calcular estadísticas descriptivas.
- Dificultades en la visualización de datos.
- Problemas al entrenar modelos de aprendizaje automático.

### Métodos de Gestión de Nulos en Pandas

Pandas ofrece varios métodos para manejar valores nulos:

1. **Identificación de Valores Nulos:** Pandas proporciona métodos como `isna()` y `notna()` para identificar celdas con valores nulos en un DataFrame.

2. **Eliminación de Filas o Columnas:** Los métodos `dropna()` permiten eliminar filas o columnas que contienen valores nulos.

3. **Imputación de Valores:** Se pueden utilizar métodos como `fillna()` para rellenar los valores nulos con un valor específico, como la media, mediana o un valor predeterminado.

4. **Interpolación:** La función `interpolate()` permite estimar valores nulos basados en los valores circundantes.



In [2]:
### Ejemplo de Uso en Pandas

import pandas as pd

# Crear un DataFrame de ejemplo con valores nulos
data = {'A': [1, 2, None, 4],
        'B': [5, None, 7, 8],
        'C': [7, 8, None, 9]}
df = pd.DataFrame(data)

# Identificar valores nulos
print("Valores Nulos:")
print(df.isna())
print()

# Eliminar filas con valores nulos
df_dropna = df.dropna()
print("DataFrame después de eliminar filas con valores nulos:")
print(df_dropna)
print()



Valores Nulos:
       A      B      C
0  False  False  False
1  False   True  False
2   True  False   True
3  False  False  False

DataFrame después de eliminar filas con valores nulos:
     A    B    C
0  1.0  5.0  7.0
3  4.0  8.0  9.0



### Veamos algunos ejemplos de como gestionar los datos None y como rellenar usando fillna...
- Si pongo que lo rellene con la media, hace la media de cada columna y lo mete 

In [3]:
import pandas as pd
# Crear un DataFrame de ejemplo con valores nulos
data = {'A': [1, 1, None, 1],
        'B': [2, None, 2, 2],
        'C': [3, 3, None, 3]}
df = pd.DataFrame(data, index = ["Fila1", "Fila2","Fila3", "Fila3"])
df_media = df.fillna(df.mean())
df_media

Unnamed: 0,A,B,C
Fila1,1.0,2.0,3.0
Fila2,1.0,2.0,3.0
Fila3,1.0,2.0,3.0
Fila3,1.0,2.0,3.0


- Otra manera de usarlo  es creando un diccionario que tenga como clave  el nombre de la columna y como valor el valor por defecto... En este caso metemos 6 en la columna de la A, 8 en la de la B y 8 en la de la C. 

In [59]:
import pandas as pd
# Crear un DataFrame de ejemplo con valores nulos
data = {'A': [1, 1, None, 1],
        'B': [2, None, 2, 2],
        'C': [3, 3, None, 3]}
df = pd.DataFrame(data, index = ["Fila1", "Fila2","Fila3", "Fila3"])
df = df.fillna({"A":6,"B":8, "C":8})

df

Unnamed: 0,A,B,C
Fila1,1.0,2.0,3.0
Fila2,1.0,8.0,3.0
Fila3,6.0,2.0,8.0
Fila3,1.0,2.0,3.0


### En este caso nos curramos un poco más el diccionario.. pero es la misma idea

In [27]:
data = {"Nombre": ["Antonio", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,None,28,None],
        "Peso": [90,80,None,67,None],
        "Estudios": ["GITT", None, None, "Enfermera", "GITT"]
        
       }
indices = [123,456,789,908,879]
df = pd.DataFrame(data, indices)
 
defecto = {"Nombre":"Desconocido", 
           "Edad": df["Edad"].mean(),
           "Peso": df["Peso"].mean(), 
           }
df = df.fillna(defecto)
df

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Antonio,25.0,90.0,GITT
456,Dani,26.0,80.0,
789,Pepe,26.333333,79.0,
908,Ana,28.0,67.0,Enfermera
879,Desconocido,26.333333,79.0,GITT


In [30]:
df_sin = df.dropna(axis = 1)
df_sin

Unnamed: 0,Nombre,Edad,Peso
123,Antonio,25.0,90.0
456,Dani,26.0,80.0
789,Pepe,26.333333,79.0
908,Ana,28.0,67.0
879,Desconocido,26.333333,79.0


In [18]:
df.isna().sum()

Nombre      1
Edad        2
Peso        2
Estudios    2
dtype: int64

### Con el parámetro axis del dropna controlo si quiero eliminar filas o columnas del df!! SI no pones nada se revienta todo!!
- Vamos a fijarnos en el siguiente diccionario que transformaremos a dframe y jugaremos con el dropna..
- Tenemos una columna entera de nulos, si no ponemos nada en el dropna se revienta toda fila/columna donde haya nulos... en este caso rompe el df.

In [24]:

data = {"Nombre": ["Antonio", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,28,28,28],
        "Peso": [90,80,47,67,68],
        "Estudios": [None, "Gitt", None, None, None]
        
       }
df =pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Peso,Estudios
0,Antonio,25,90,
1,Dani,26,80,Gitt
2,Pepe,28,47,
3,Ana,28,67,
4,,28,68,


In [26]:
df_elim  = df.dropna(axis = 1)
df_elim

Unnamed: 0,Edad,Peso
0,25,90
1,26,80
2,28,47
3,28,67
4,28,68


In [11]:
df.head()

Unnamed: 0,Nombre,Edad,Peso,Estudios
0,Antonio,25,90,GITT
1,Dani,26,80,
2,Pepe,28,47,
3,Ana,28,67,
4,,28,68,


##  Si ponemos axis = 0, rompe toda fila donde haya none / nan

- En este caso, la unica fila donde no hay nulos es la fila de antonio, ya que en el resto hay nones en alguna de las columnas por lo que se lo revienta

In [16]:

data = {"Nombre": ["Antonio", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,28,28,28],
        "Peso": [90,80,47,67,68],
        "Estudios": ["GITT", None, None, None, None]
        
       }
df =pd.DataFrame(data)
df_elim  = df.dropna(axis = 0)
df_elim

Unnamed: 0,Nombre,Edad,Peso,Estudios
0,Antonio,25,90,GITT


### Si ponemos axis = 1, rompe toda columna donde haya none / nan
- En este caso elimina la columna de estudios y la de nombres, ya que son las columnas donde hay nones...

In [17]:

data = {"Nombre": ["Antonio", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,28,28,28],
        "Peso": [90,80,47,67,68],
        "Estudios": ["GITT", None, None, None, None]
        
       }
df =pd.DataFrame(data)
df_elim  = df.dropna(axis = 1)
df_elim

Unnamed: 0,Edad,Peso
0,25,90
1,26,80
2,28,47
3,28,67
4,28,68


In [26]:
df_sinNa = df.dropna()
df_sinNa

Unnamed: 0,A,B,C
0,1.0,5.0,7.0
3,4.0,8.0,9.0


In [39]:

df_lleno = df.fillna(4)

df_lleno

Unnamed: 0,A,B,C
0,1.0,5.0,7.0
1,2.0,4.0,8.0
2,4.0,7.0,4.0
3,4.0,8.0,9.0




# 2. Filtros<a id="Filtros"></a>

Aplicar filtros sobre los datos es muy útil de cara a conocer como se distribuyen nuestros datos y con ello realizar transformaciones sobre los mismos

Los filtros son una parte fundamental del análisis de datos en Pandas. Permiten seleccionar subconjuntos específicos de datos basados en condiciones específicas, lo que facilita la exploración y el análisis de grandes conjuntos de datos. Pandas proporciona varias funciones y métodos para aplicar filtros de manera eficiente en DataFrames.

Los filtros en Pandas se utilizan para seleccionar filas o columnas de un DataFrame que cumplan ciertas condiciones. Estas condiciones pueden ser simples o complejas, y se expresan utilizando operadores de comparación, lógicos y funciones booleanas.

### Métodos para Aplicar Filtros en Pandas

Pandas ofrece varios métodos para aplicar filtros:

1. **Indexación Booleana:** Se utiliza una serie booleana para filtrar filas en un DataFrame. La serie booleana tiene la misma longitud que el DataFrame y contiene `True` en las posiciones donde se deben incluir las filas y `False` donde se deben excluir.

2. **Método `loc[]`:** Permite seleccionar filas y columnas por etiquetas o condiciones booleanas. Es especialmente útil para seleccionar filas basadas en etiquetas de índice y columnas basadas en nombres.

3. **Método `iloc[]`:** Permite seleccionar filas y columnas por posición entera. Se usa para filtrar filas y columnas basadas en su posición en el DataFrame.

4. **Función `query()`:** Permite filtrar filas utilizando expresiones de consulta. Es útil para aplicar filtros más complejos utilizando una sintaxis similar a SQL.



In [90]:
### Ejemplo de Uso en Pandas :En este ejemplo, se crea un DataFrame de ejemplo y luego se aplican filtros utilizando 
### una serie booleana y múltiples condiciones. Esto resulta en la selección de subconjuntos específicos de datos que 
### cumplen con los criterios establecidos.

import pandas as pd

# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10],
        'C': ['x', 'y', 'x', 'y', 'z']}
df = pd.DataFrame(data)
print("Antes del filtro: ")
print(df)
# Filtrar filas donde el valor de la columna 'A' sea mayor que 2
filtro = df['A'] > 2
resultado = df[filtro]
print("Resultado del filtro:")
print(resultado)
print()

# Filtrar filas basadas en múltiples condiciones
filtro = (df["A"] > 0) & (df["C"] == "x")
resultado_multiple = df[filtro]
print("Resultado del filtro con múltiples condiciones:")
print(resultado_multiple)



Antes del filtro: 
   A   B  C
0  1   6  x
1  2   7  y
2  3   8  x
3  4   9  y
4  5  10  z
Resultado del filtro:
   A   B  C
2  3   8  x
3  4   9  y
4  5  10  z

Resultado del filtro con múltiples condiciones:
   A  B  C
0  1  6  x
2  3  8  x


### Ejemplos de filtros simples y múltiples
- Primero rellenamos los valores por defecto....



## Múltiples filtros

In [18]:
data = {"Nombre": ["Antonio", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,28,28,28],
        "Peso": [90,80,47,67,68],
        "Estudios": ["GITT", None, None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678])
defecto = {"Estudios": "Sin estudios", "Nombre": "Desconocido"}
df = df.fillna(defecto)
df


Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Antonio,25,90,GITT
4556,Dani,26,80,Sin estudios
667,Pepe,28,47,Sin estudios
788,Ana,28,67,Enfermera
678,Desconocido,28,68,Sin estudios


### Vamos a ver qué carajo devuelve un filtro

In [21]:
filtro = df["Edad"] > 25
filtro


123     False
4556     True
667      True
788      True
678      True
Name: Edad, dtype: bool

- Si nos paramos a mirar, lo que devuelve el filtro es una SERIE con booleanos, encontramos un false, quiere decir que EN ESA FILA, la condición devuelve un false, donde vemos un true, quiere decir que EN ESA FILA, la condición de nuestro filtro devuelve un true. De esa forma, lo que hacemos es quedarnos con todas aquellas filas de la columna donde nuestra serie con booleanos presente un true!!!
- En este caso, nos quedaremos con todas las filas menos la de antonio

In [22]:
df[filtro]

Unnamed: 0,Nombre,Edad,Peso,Estudios
4556,Dani,26,80,Sin estudios
667,Pepe,28,47,Sin estudios
788,Ana,28,67,Enfermera
678,Desconocido,28,68,Sin estudios


### Ahora te toca a ti.
- Obtén una serie con los nombres de las personas con 28 años
- Obtén una serie con los nombres de las personas sin estudios
- Obtén un dframe nuevo con la info de aquellas personas cuyo peso sea mayor o igual que 67


In [34]:
df

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Antonio,25,90,GITT
4556,Dani,26,80,Sin estudios
667,Pepe,28,47,Sin estudios
788,Ana,28,67,Enfermera
678,Desconocido,28,68,Sin estudios


### A. Múltiples Filtros:

Puedes aplicar múltiples filtros combinando condiciones usando operadores lógicos como `&` (AND) y `|` (OR). Por ejemplo:
- Ojo con la sintaxis y los paréntesis.

### Vamos a obtener un nuevo df con la info de las personas cuya edad es mayor o igual que 25 Y su peso es mayor que 68

In [24]:
filtro = ((df["Edad"] >= 25) & (df["Peso"] > 68))
df[filtro].head()

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Antonio,25,90,GITT
4556,Dani,26,80,Sin estudios


### Vamos a obtener un df con la info de las personas sin estudios o GITT.


In [32]:
filtro = ((df["Estudios"] == "Sin estudios") | (df["Estudios"] == "GITT"))
df[filtro]

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Antonio,25,90,GITT
4556,Dani,26,80,Sin estudios
667,Pepe,28,47,Sin estudios
678,Desconocido,28,68,Sin estudios


### Vamos a obtener un df con la info de aquellos sin estudios que pesen más de 50 o con aquellos que hayan estudiado GITT

In [37]:
filtro = ((df["Estudios"] == "Sin estudios") & (df["Peso"] > 50)) | (df["Estudios"] == "GITT")
df_filtrado = df[filtro]
df_filtrado.head()

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Antonio,25,90,GITT
4556,Dani,26,80,Sin estudios
678,Desconocido,28,68,Sin estudios


### Ahora te toca a ti. 

- Obtén el nombre de las personas cuyo peso sea 25 o que no hayan estudiado nada
- Obten un nuevo df con la información de las personas cuyo nombre es desconocido y que tengan más de 25 años
- Obten los nombres de aquellas personas que: Sean mayores de edad y pesen menos de 100 o tengan nombre desconocido. 


### B. Método `isin()`:

El método `isin()` se utiliza para filtrar filas donde una columna tenga uno de varios valores específicos. Por ejemplo:
- Basicamente me está devolviendo un array de booleanos, me quedaré con los que hayan devuelto true
- Si entiendes los filtros normales, no tienes que rayarte


In [38]:
data = {"Nombre": ["Lucas", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,28,28,28],
        "Peso": [90,80,47,67,68],
        "Estudios": ["GITT", None, None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678])
defecto = {"Estudios": "Sin estudios", "Nombre": "Desconocido"}
df = df.fillna(defecto)
df = df[df["Edad"].isin([25,28])]
df



Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Lucas,25,90,GITT
667,Pepe,28,47,Sin estudios
788,Ana,28,67,Enfermera
678,Desconocido,28,68,Sin estudios


### Fíjate lo que devuelve...

In [2]:
data = {"Nombre": ["Lucas", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,28,28,28],
        "Peso": [90,80,47,67,68],
        "Estudios": ["GITT", None, None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678])
df["Edad"].isin([25,28])

123      True
4556    False
667      True
788      True
678      True
Name: Edad, dtype: bool

### C. Método `iloc[]`:

El método `iloc[]` se utiliza para acceder a filas y columnas por posición entera. Puedes usar índices enteros para seleccionar filas y columnas. Por ejemplo:

In [141]:
# Seleccionar la primera fila y la segunda columna
data = {"Nombre": ["Lucas", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,28,28,28],
        "Peso": [90,80,47,67,68],
        "Estudios": ["GITT", None, None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678])
defecto = {"Estudios": "Sin estudios", "Nombre": "Desconocido"}
df = df.fillna(defecto)
df.iloc[:,:]# Fila columna!! Puedo jugar con slicing

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Lucas,25,90,GITT
4556,Dani,26,80,Sin estudios
667,Pepe,28,47,Sin estudios
788,Ana,28,67,Enfermera
678,Desconocido,28,68,Sin estudios


### D. Método `loc[]`:

El método `loc[]` se utiliza para acceder a filas y columnas por etiqueta. Puedes usar etiquetas de índice y nombres de columnas para seleccionar filas y columnas. Por ejemplo:

In [145]:
# Seleccionar la fila con etiqueta de índice 0 y la columna 'B'
valor = df.loc[:, :]
valor

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Lucas,25,90,GITT
4556,Dani,26,80,Sin estudios
667,Pepe,28,47,Sin estudios
788,Ana,28,67,Enfermera
678,Desconocido,28,68,Sin estudios


### E. Función `query()`:

La función `query()` permite filtrar filas de un DataFrame utilizando una expresión de consulta similar a la sintaxis de SQL. Esta función es especialmente útil cuando necesitas aplicar filtros más complejos o cuando quieres escribir expresiones de filtro de manera más legible y concisa.
- La sintaxis es algo más compleja, mi recomendación es usar filtros normales...

In [158]:
## pruebas

import pandas as pd

# Seleccionar la primera fila y la segunda columna
data = {"Nombre": ["Lucas", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,28,28,28],
        "Peso": [90,80,47,67,68],
        "Estudios": ["GITT", None, None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678])
df = df.fillna({"Estudios":"Sin estudios"})
df
df = df.query('Edad > 25 and Estudios == "Sin estudios"')
df

Unnamed: 0,Nombre,Edad,Peso,Estudios
4556,Dani,26,80,Sin estudios
667,Pepe,28,47,Sin estudios
678,,28,68,Sin estudios


In [159]:

import pandas as pd

# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10],
        'C': ['x', 'y', 'x', 'y', 'z']}
df = pd.DataFrame(data)

# Usar la función query() para filtrar filas donde 'A' sea mayor que 2 y 'C' sea 'x'
resultado = df.query('A > 2 and C == "x"')
print(resultado)


### En este ejemplo, la expresión de consulta `'A > 2 and C == "x"'` se evalúa para cada fila del DataFrame. 
### Solo se seleccionan las filas que cumplan con esta condición, es decir, donde el valor en la columna 'A' 
### sea mayor que 2 y el valor en la columna 'C' sea igual a 'x'.



   A  B  C
2  3  8  x


In [3]:
## pruebas

import pandas as pd

# Seleccionar la primera fila y la segunda columna
data = {"Nombre": ["Antonio", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,28,28,28],
        "Peso": [90,80,47,67,68],
        "Estudios": ["GITT", None, None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678])
df = df.fillna({"Estudios":"Sin estudios"})
df
df = df.query('Edad > 25 and Estudios == "Sin estudios"')
df

Unnamed: 0,Nombre,Edad,Peso,Estudios
4556,Dani,26,80,Sin estudios
667,Pepe,28,47,Sin estudios
678,,28,68,Sin estudios




# 3. Ordenar<a id="Ordenar"></a>

Ordenar de forma ascendente/descendente en función de los datos o índices que acabamos de crear, es útil para otras operaciones ya que acelera las búsquedas dentro del dataset



### Ordenar un DataFrame por una columna

Para ordenar un DataFrame por los valores de una sola columna, puedes usar el método `sort_values()` especificando el nombre de la columna por la cual deseas ordenar. Por ejemplo:

### Parámetros adicionales

- **ascending**: Puedes especificar si deseas ordenar en orden ascendente o descendente. Por defecto, es True (ascendente).
- **inplace**: Si deseas modificar el DataFrame original, puedes establecer inplace=True. Por defecto, es False.


In [45]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {'Nombre': ['Juan', 'María', 'Pedro', 'Ana'],
        'Edad': [25, 30, 20, 35]}
df = pd.DataFrame(data)

# Ordenar el DataFrame por la columna 'Edad' en orden ascendente
#df.sort_values(by='Edad', inplace = True) # Puedes jugar con el inplace....
df_ordenado = df.sort_values(by='Edad')
df_ordenado

Unnamed: 0,Nombre,Edad
2,Pedro,20
0,Juan,25
1,María,30
3,Ana,35


# Ejemplos

- Vamos a ordenar el df por edad. Obteniendo un nueo df, es decir, no vamos a usar el inplace. 


In [17]:
import pandas as pd

# Seleccionar la primera fila y la segunda columna
data = {"Nombre": ["Antonio", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,28,28,28],
        "Peso": [90,80,47,67,68],
        "Estudios": ["GITT", None, None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678])
df = df.fillna({"Estudios":"Sin estudios", "Nombre":"Desconocido"})
df
df = df.sort_values(by="Edad", ascending = True)
df

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Antonio,25,90,GITT
4556,Dani,26,80,Sin estudios
667,Pepe,28,47,Sin estudios
788,Ana,28,67,Enfermera
678,Desconocido,28,68,Sin estudios


# ¿Y en caso de empate? ¿Qué ocurre?
- Podemos decirle al método sortvalues que, cuando ordene en base  aun parámetro, siga ordenando en base a otro. Para ello, en el by pasamos una lista con las dos claves que queremos utilizar para ordenar y en el ascending una lista de booleanos. Este se conoce como ordenar por múltiples columnas. 

### En este primer ejemplo vamos a ordenar la edad en orden ascendente y, en caso de empate, el método se fijará en el peso, en orden ascendente también. 
- En este caso, cuando las edades empatan, ordena por el peso, en orden ascendente. Por ello, aparece primero Pepe, luego Ana y luego desconocido. 

In [18]:
import pandas as pd


data = {"Nombre": ["Antonio", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,28,28,28],
        "Peso": [90,80,47,67,68],
        "Estudios": ["GITT", None, None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678])
df = df.fillna({"Estudios":"Sin estudios", "Nombre":"Desconocido"})
df
df = df.sort_values(by=["Edad", "Peso"], ascending = [True, True])### Si quiero ordenar por más de una columna
df

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Antonio,25,90,GITT
4556,Dani,26,80,Sin estudios
667,Pepe,28,47,Sin estudios
788,Ana,28,67,Enfermera
678,Desconocido,28,68,Sin estudios


### Ahora repetimos lo mismo pero, el peso en orden descendente. Simplemente para ver cómo funciona el método. 
- Cambiamos el criterio por lo que aparece primero desconocido, luego Ana y luego Pepe

In [19]:
import pandas as pd


data = {"Nombre": ["Antonio", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,28,28,28],
        "Peso": [90,80,47,67,68],
        "Estudios": ["GITT", None, None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678])
df = df.fillna({"Estudios":"Sin estudios", "Nombre":"Desconocido"})
df
df = df.sort_values(by=["Edad", "Peso"], ascending = [True, False])
df.head()

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Antonio,25,90,GITT
4556,Dani,26,80,Sin estudios
678,Desconocido,28,68,Sin estudios
788,Ana,28,67,Enfermera
667,Pepe,28,47,Sin estudios


# Usando el inplace...
- Ya lo hemos visto, modifica el df original...

In [20]:
import pandas as pd

# Seleccionar la primera fila y la segunda columna
data = {"Nombre": ["Lucas", "Dani", "Pepe", "Ana", None],
        "Edad": [25,26,28,28,28],
        "Peso": [90,80,47,67,68],
        "Estudios": ["GITT", None, None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678])
df = df.fillna({"Estudios":"Sin estudios", "Nombre":"Desconocido"})
df
df.sort_values(by=["Edad", "Peso"], ascending = [True,True],inplace = True)
df

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Lucas,25,90,GITT
4556,Dani,26,80,Sin estudios
667,Pepe,28,47,Sin estudios
788,Ana,28,67,Enfermera
678,Desconocido,28,68,Sin estudios




# 4. Eliminar duplicados<a id="Eliminar-duplicados"></a>

Todos los dataset son susceptibles de tener registros duplicados, total o parcialmente, lo que según cada caso puede tener sentido o no. Veamos como identificarlos y tratarlos. 



El método `duplicated()`se utiliza para identificar filas duplicadas en un DataFrame. Este método devuelve una serie booleana que indica si cada fila es una duplicada de una fila anterior en el DataFrame. Puedes utilizar esta serie booleana para filtrar las filas duplicadas o para contar cuántas filas duplicadas hay en el DataFrame.
- KEEP

### Parámetros adicionales

- **keep**: Puedes especificar si deseas mantener la primera aparición de cada fila duplicada (`keep='first'`), la última aparición (`keep='last'`) o eliminar todas las filas duplicadas (`keep=False`). Por defecto, `keep='first'`.
- **inplace**: Si deseas modificar el DataFrame original, puedes establecer `inplace=True`. Por defecto, es `False`.


In [21]:

import pandas as pd

# Crear un DataFrame de ejemplo con filas duplicadas
data = {'A': [1, 2, 2, 3, 4, 4],
        'B': ['x', 'y', 'y', 'z', 'w', 'w']}
df = pd.DataFrame(data)

# Identificar filas duplicadas
duplicados = df.duplicated()
print("Filas duplicadas:")
print(duplicados)

Filas duplicadas:
0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool


# Pruebas
- Vamos a hacer varias pruebas para ver cómo funcionan estos métodos.
- Duplicated  me está devolviendo una serie booleana como cuando hacíamos filtros, donde está a True si es un duplicado y está a false si no lo está. 
- Si no especifico nada dentro del duplicated, devuelve True si la fila está completamente repetida, es decir, coinciden todos los valores. 
- Si quiero que solo mire en una columna, puedo indicarlo mediante el argumento subset = "clave columna"
- En este subset, también puedo pasar una lista con las columnas donde quiero que mire... la sintaxis es la misma que cuando ordenamos con sortvalues.

In [59]:
import pandas as pd

# Seleccionar la primera fila y la segunda columna
data = {"Nombre": ["Antonio","Antonio", "Dani", "Pepe", "Ana", None],
        "Edad": [25,25,25,28,28,28],
        "Peso": [90,90,80,47,67,68],
        "Estudios": ["GITT","GITT",  "Energía", None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678, 890])
df = df.fillna({"Estudios":"Sin estudios"})
duplicados = df.duplicated(subset = "Edad")
#duplicados = df.duplicated( subset = ["Edad", "Estudios"])
#duplicados = df.duplicated( subset = "Edad")
print(df)
print("-"*50)
duplicados

       Nombre  Edad  Peso      Estudios
123   Antonio    25    90          GITT
4556  Antonio    25    90          GITT
667      Dani    25    80       Energía
788      Pepe    28    47  Sin estudios
678       Ana    28    67     Enfermera
890      None    28    68  Sin estudios
--------------------------------------------------


123     False
4556     True
667      True
788     False
678      True
890      True
dtype: bool

### Eliminamos las filas duplicadas con drop_duplicated

In [66]:
df_sinduplicados = df.drop_duplicates(subset = ["Edad"])
df_sinduplicados

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Antonio,25,90,GITT
788,Pepe,28,47,Sin estudios


In [65]:
df_sinduplicados = df.drop_duplicates(subset = ["Edad", "Estudios"])
df_sinduplicados

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Antonio,25,90,GITT
667,Dani,25,80,Energía
788,Pepe,28,47,Sin estudios
678,Ana,28,67,Enfermera


# Ahora te toca a ti
### Enunciado. Partiendo del siguiente diccionario, obtén un nuevo df que contenga los datos de los coches cuya matrícula no se repite

In [23]:
data = {
    "Matrícula": ["ABC123", "DEF456", "GHI789", "JKL012", "DEF456", "MNO345", "ABC123"],
    "Modelo": ["Modelo X", "Modelo Y", "Modelo Z", "Modelo A", "Modelo Y", "Modelo B", "Modelo X"],
    "Color": ["Rojo", "Azul", "Negro", "Blanco", "Azul", "Negro", "Rojo"],
    "Marca": ["Tesla", "Tesla", "Nissan", "Honda", "Tesla", "BMW", "Tesla"],
    "NumeroPuertas": [4, 2, 4, 4, 2, 4, 4],
    "Asientos": [5, 2, 5, 5, 2, 5, 5],
    "AñoITV": [2022, 2021, 2023, 2024, 2021, 2023, 2022]
}
df = pd.DataFrame(data)
print(df)


  Matrícula    Modelo   Color   Marca  NumeroPuertas  Asientos  AñoITV
0    ABC123  Modelo X    Rojo   Tesla              4         5    2022
1    DEF456  Modelo Y    Azul   Tesla              2         2    2021
2    GHI789  Modelo Z   Negro  Nissan              4         5    2023
3    JKL012  Modelo A  Blanco   Honda              4         5    2024
4    DEF456  Modelo Y    Azul   Tesla              2         2    2021
5    MNO345  Modelo B   Negro     BMW              4         5    2023
6    ABC123  Modelo X    Rojo   Tesla              4         5    2022


In [24]:
df_sindup = df.drop_duplicates(subset = "Matrícula")
df_sindup

Unnamed: 0,Matrícula,Modelo,Color,Marca,NumeroPuertas,Asientos,AñoITV
0,ABC123,Modelo X,Rojo,Tesla,4,5,2022
1,DEF456,Modelo Y,Azul,Tesla,2,2,2021
2,GHI789,Modelo Z,Negro,Nissan,4,5,2023
3,JKL012,Modelo A,Blanco,Honda,4,5,2024
5,MNO345,Modelo B,Negro,BMW,4,5,2023


### Enunciado: Elimina las filas duplicadas basándote en la columna 'Matrícula', pero esta vez conserva la última aparición de cada matrícula.
- Si nos damos cuenta, cuando hacemos un drop duplicated, por defecto, pandas elimina todas menos la primera aparición. Si queremos que se quede con la última, podemos especificarlo con el keep. 

In [25]:
df_last = df.drop_duplicates(subset=['Matrícula'], keep='last')
print(df_last)


  Matrícula    Modelo   Color   Marca  NumeroPuertas  Asientos  AñoITV
2    GHI789  Modelo Z   Negro  Nissan              4         5    2023
3    JKL012  Modelo A  Blanco   Honda              4         5    2024
4    DEF456  Modelo Y    Azul   Tesla              2         2    2021
5    MNO345  Modelo B   Negro     BMW              4         5    2023
6    ABC123  Modelo X    Rojo   Tesla              4         5    2022


### Enunciado: Elimina las filas duplicadas basándote en las columnas 'Matrícula' y 'Modelo', descartando todas las apariciones duplicadas.
- La última opción es keep = False. Esto implica que pandas no conserve nada. 

In [26]:
df_sin = df.drop_duplicates(subset=['Matrícula', 'Modelo'], keep=False)
print(df_sin)


  Matrícula    Modelo   Color   Marca  NumeroPuertas  Asientos  AñoITV
2    GHI789  Modelo Z   Negro  Nissan              4         5    2023
3    JKL012  Modelo A  Blanco   Honda              4         5    2024
5    MNO345  Modelo B   Negro     BMW              4         5    2023


### Contar filas duplicadas:

Si deseas contar cuántas filas duplicadas hay en el DataFrame, puedes utilizar el método `sum()` junto con el método `duplicated()`. Por ejemplo:
- Al final, df.duplicated lo que me devuelve es una serie. Como es una serie, puedo hacer un .sum() para que sume los elementos que están a True...

In [19]:
# Contar cuántas filas duplicadas hay en el DataFrame
cantidad_duplicados = df.duplicated().sum()
print("Cantidad de filas duplicadas:", cantidad_duplicados)

Cantidad de filas duplicadas: 2


# 5. Añadir/eliminar registros<a id="Añadir-eliminar-registros"></a>

En Pandas, puedes agregar o eliminar registros (filas) en un DataFrame utilizando varios métodos y funciones proporcionadas por la biblioteca. Estos métodos te permiten modificar el contenido de un DataFrame según tus necesidades específicas.

### Añadir Registros:

Para agregar registros a un DataFrame en Pandas, puedes utilizar el método `append()` / pd.concat. En este caso, hacemos pd.concat por la versión de pandas instalada. Puedes agregar una fila individual o un DataFrame completo. Por ejemplo:

### Pruebas

In [50]:
import pandas as pd

# Seleccionar la primera fila y la segunda columna
data = {"Nombre": ["Antonio","Manolo", "Dani", "Pepe", "Ana", None],
        "Edad": [25,25,28,28,28,28],
        "Peso": [90,90,80,47,67,68],
        "Estudios": ["GITT","GITT",  None, None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678, 890])
df = df.fillna({"Estudios":"Sin estudios", "Nombre": "Sin nombre"})

### Estamos añadiendo a Jose!!
elemento = pd.DataFrame({"Nombre":"Jose", "Edad":26, "Peso":46, "Estudios": "Industriales"}, [879])
df = pd.concat([df, elemento])
df

Unnamed: 0,Nombre,Edad,Peso,Estudios
123,Antonio,25,90,GITT
4556,Manolo,25,90,GITT
667,Dani,28,80,Sin estudios
788,Pepe,28,47,Sin estudios
678,Ana,28,67,Enfermera
890,Sin nombre,28,68,Sin estudios
879,Jose,26,46,Industriales


### Eliminar Registros:

Para eliminar registros de un DataFrame en Pandas, puedes utilizar el método `drop()`, que permite eliminar filas o columnas según etiquetas de índice o nombres. También puedes eliminar registros utilizando filtros o condiciones booleanas.
 - En este primer caso, vamos a eliminar la primera fila del df, para ello,  usamos la clave asociada a la fila! En este caso es 123.
 - Ojo, que lo igualamos a un df nuevo por no usar el inplace. 

In [51]:
df = df.drop(123)
#df.drop(123, inplace = True)

print(df)


          Nombre  Edad  Peso      Estudios
4556      Manolo    25    90          GITT
667         Dani    28    80  Sin estudios
788         Pepe    28    47  Sin estudios
678          Ana    28    67     Enfermera
890   Sin nombre    28    68  Sin estudios
879         Jose    26    46  Industriales


### Podemos simular el mismo comportamiento mediante un filtro... 
- Al final, el drop nos permite eliminar filas una a una, el filtro rompe todo lo que no queremos del tirón. 
- Si quisiésemos eliminar la misma fila, podríamos hacer lo siguiente: 

In [58]:
import pandas as pd

# Seleccionar la primera fila y la segunda columna
data = {"Nombre": ["Jose","Antonio", "Dani", "Pepe", "Ana", None],
        "Edad": [25,25,28,28,28,28],
        "Peso": [90,90,80,47,67,68],
        "Estudios": ["GITT","GITT",  None, None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678, 890])
df = df.fillna({"Estudios":"Sin estudios", "Nombre": "SIn nombre"})
filtro = df.index != 123
df = df[filtro]
df

Unnamed: 0,Nombre,Edad,Peso,Estudios
4556,Antonio,25,90,GITT
667,Dani,28,80,Sin estudios
788,Pepe,28,47,Sin estudios
678,Ana,28,67,Enfermera
890,SIn nombre,28,68,Sin estudios


### Nota:
Cuando eliminas registros utilizando `drop()`, puedes especificar el parámetro `axis` para indicar si deseas eliminar filas (`axis=0`, que es el valor predeterminado) o columnas (`axis=1`).
- Lo que hemos hecho hasta ahora ha sido eliminar por filas, lo que es el axis por defecto. Imagina que queremos eliminar una columna completa...


In [67]:
import pandas as pd

# Seleccionar la primera fila y la segunda columna
data = {"Nombre": ["Jose","Antonio", "Dani", "Pepe", "Ana", None],
        "Edad": [25,25,28,28,28,28],
        "Peso": [90,90,80,47,67,68],
        "Estudios": ["GITT","GITT",  None, None, "Enfermera", None]
        
       }
df = pd.DataFrame(data, [123,4556,667,788,678, 890])
df = df.fillna({"Estudios":"Sin estudios", "Nombre": "SIn nombre"})
# quitar el axis para ver que nos da un error!
df = df.drop("Edad", axis = 1)
df

Unnamed: 0,Nombre,Peso,Estudios
123,Jose,90,GITT
4556,Antonio,90,GITT
667,Dani,80,Sin estudios
788,Pepe,47,Sin estudios
678,Ana,67,Enfermera
890,SIn nombre,68,Sin estudios






# 6. Conversión de tipos de datos<a id="Conversión-tipos-datos"></a>




Podemos convertir el tipo de datos de columnas en un DataFrame utilizando el método `astype()` o utilizando funciones específicas de conversión de tipo de datos proporcionadas por Pandas. Estas conversiones son útiles para ajustar el tipo de datos de una columna para que coincida con el deseado en tu análisis de datos.
# Reflexión sobre los Tipos de Datos en Series de Pandas

En el análisis de datos con pandas, comprender los tipos de datos es fundamental para la manipulación eficiente y la interpretación correcta de los datos. Las Series de pandas pueden contener varios tipos de datos, cada uno con sus particularidades y usos recomendados.

## Tipos de Datos en Series

Una Serie en pandas puede albergar diferentes tipos de datos, incluyendo:

- `int` para enteros,
- `float` para números flotantes,
- `bool` para valores booleanos,
- `datetime64[ns]` para marcas de tiempo,
- y `object` para tipos de datos mixtos y strings.

## El Tipo `object` en Detalle

El tipo `object` en pandas es particularmente versátil. Aunque es el tipo de dato menos eficiente en términos de almacenamiento y velocidad de procesamiento, ofrece una flexibilidad significativa. Es comúnmente utilizado para almacenar strings junto con otros tipos de datos mixtos.

### Relación entre `object` y `str`

- **Almacenamiento de Texto**: En pandas, las cadenas de caracteres son almacenadas en Series y DataFrames como objetos. Esto significa que cuando una Serie contiene texto, su tipo de dato será `object`.
- **Flexibilidad**: El uso del tipo `object` permite a pandas manejar datos de texto que tienen longitudes variables, lo cual sería restrictivo si se usaran tipos más específicos como `str`.
- **Rendimiento**: Aunque los `object` son menos eficientes, pandas utiliza internamente optimizaciones como arrays de punteros para gestionar de manera más efectiva estas colecciones de objetos.

### Consideraciones de Uso

- **Conversión y Manipulación**: Al trabajar con textos en pandas, es común convertir otras Series al tipo `object` para realizar operaciones específicas de strings, tales como manipulaciones, búsquedas o limpieza de datos.
- **Implicaciones de Performance**: Si bien el tipo `object` es útil, su uso puede llevar a un rendimiento reducido en comparación con los tipos de datos más específicos y optimizados. Es recomendable, siempre que sea posible, convertir Series de `object` a categorías (`category`) si los datos de texto son repetitivos y limitados en variedad, lo que puede mejorar significativamente la eficiencia.

## Conclusión

El entendimiento de cómo se almacenan y gestionan los datos en pandas es crucial para el análisis de datos eficaz. El tipo `object`, a pesar de sus desventajas en términos de rendimiento, juega un papel esencial en la manipulación de datos de texto en pandas, proporcionando la capacidad de manejar datos complejos y heterogéneos de manera eficiente. Es fundamental equilibrar la flexibilidad que ofrece el tipo `object` con las necesidades de rendimiento y eficiencia para cada caso de uso específico en análisis de datos.

### Método `astype()`:

El método `astype()` te permite convertir el tipo de datos de una columna a otro tipo de datos especificado. Por ejemplo, puedes convertir una columna de tipo numérico a tipo cadena o viceversa. Aquí tienes un ejemplo:

### Pruebas
- El siguiente df tiene la serie peso como tipo Object, ya que hemos almacenado los pesos como str en el diccionario. Primero, checkeamos con dtypes el tipo de los datos de la serie!

In [77]:
import pandas as pd

# Seleccionar la primera fila y la segunda columna
data = {"Nombre": ["Sebas","Antonio", "Dani", "Pepe", "Ana", "Desconocido"],
        "Edad": [25,25,28,28,28,28],
        "Peso": ["90","90","80","47","67","68"],
        "Estudios": ["GITT","GITT", "GITI", "Física","Mates", "Enfermera"]
        
       }
df = pd.DataFrame(data)

df.dtypes


Nombre      object
Edad         int64
Peso        object
Estudios    object
dtype: object

- Si queremos cambiar el tipo de datos de esa serie, por ejemplo, a flaot, usamos el método astype.

In [81]:
df["Peso"] = df["Peso"].astype(float)
df.dtypes

Nombre       object
Edad          int64
Peso        float64
Estudios     object
dtype: object

### Funciones de Conversión de Tipo de Datos:

Pandas proporciona varias funciones específicas de conversión de tipo de datos, como `to_numeric()`, `to_datetime()`, `to_timedelta()`, etc. Estas funciones son útiles cuando necesitas realizar conversiones específicas de tipo de datos, como convertir una columna a valores numéricos, fechas o deltas de tiempo. 
- Podemos usar to_datetime() para ahorrarnos el astype... como quieras.

In [93]:
data = {"Nombre": ["Sebas","Antonio", "Dani", "Pepe", "Ana", "Desconocido"],
        "Edad": [25,25,28,28,28,28],
        "Peso": ["90","90","80","47","67","68"],
        "Estudios": ["GITT","GITT", "GITI", "Física","Mates", "Enfermera"]
        
       }

df = pd.DataFrame(data, [123,4556,667,788,678, 890])

print("Antes de usar pd.to_numeric....\n", df.dtypes)
df["Peso"] = pd.to_numeric(df["Peso"])
print("-"*50)
print("Después de usarlo....")
df.dtypes





Antes de usar pd.to_numeric....
 Nombre      object
Edad         int64
Peso        object
Estudios    object
dtype: object
--------------------------------------------------
Después de usarlo....


Nombre      object
Edad         int64
Peso         int64
Estudios    object
dtype: object

### Nota:

Cuando realizas conversiones de tipo de datos, es importante manejar los posibles errores de conversión. Por ejemplo, si intentas convertir una cadena que no puede ser convertida a un valor numérico, Pandas generará un error. Puedes manejar estos errores utilizando el parámetro `errors` en las funciones de conversión de tipo de datos.

# Manejo de Errores en la Conversión de Tipos de Datos en Pandas

Cuando trabajas con conversión de tipos en pandas usando el método `astype()`, es posible que te encuentres con errores si la conversión no es posible. Pandas te permite especificar cómo deseas que se traten estos errores a través del parámetro `errors`. A continuación, se detallan las opciones disponibles y cómo funcionan.

## Parámetro `errors` en `astype()`

El método `astype()` se utiliza para convertir una Serie o columnas de un DataFrame a un tipo de dato especificado. Aquí están las opciones para el parámetro `errors`:

1. **`raise`** (por defecto):
   - Interrumpe la operación y lanza una excepción si ocurre un error durante la conversión.
   - Útil cuando deseas asegurarte de que todos los datos se han convertido correctamente y ser notificado de cualquier problema.

2. **`ignore`**:
   - Si se encuentra un error durante la conversión, el error se ignora y se devuelve el objeto original sin cambios.
   - Beneficioso si prefieres mantener los datos originales en caso de error en lugar de detener la ejecución.

3. **`coerce`**:
   - Forza la conversión y asigna `NaN` a los datos que no se pueden convertir.
   - Especialmente útil cuando estás dispuesto a aceptar valores `NaN` para aquellos datos que no se puedan convertir apropiadamente.

## Ejemplo Práctico

Aquí te muestro cómo usar `astype()` con el parámetro `errors` para manejar diferentes situaciones:

```python
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'A': ['1', '2', 'three', '4', 'five']
})

# Intentar convertir a int con 'raise'
try:
    df['A'] = df['A'].astype(int)
except ValueError as e:
    print(f"Error: {e}")

# Intentar convertir a int con 'ignore'
df['B'] = df['A'].astype(int, errors='ignore')

# Intentar convertir a int con 'coerce'
df['C'] = df['A'].astype(int, errors='coerce')

print(df)


# 7. Manejo de datos categóricos<a id="Datos-categóricos"></a>

En el análisis de datos, nos encontramos con diferentes tipos de variables, como numéricas, de texto y categóricas. Las variables categóricas son aquellas que representan una serie de categorías o clases discretas. Estas categorías pueden ser ordinales (con un orden específico) o nominales (sin un orden inherente). Pandas proporciona soporte para manejar eficientemente datos categóricos a través del tipo de datos `Categorical`.

### ¿Qué son los Datos Categóricos?

Los datos categóricos son aquellos que pueden ser divididos en categorías o clases únicas y discretas. Algunos ejemplos podrían ser: 
- El tipo de sangre (A, B, AB, O)
- Sexo (hombre, mujer)
- Nivel educativo (primaria, secundaria, universidad)

Estas variables no tienen un valor numérico intrínseco, sino que representan una clasificación o etiqueta.

### Ventajas del Uso de Datos Categóricos

1. **Eficiencia en el uso de memoria:** El almacenamiento de datos categóricos puede ser más eficiente en términos de memoria que el almacenamiento de texto o numérico, especialmente cuando hay un número limitado de categorías distintas.
  
2. **Facilidad en el análisis:** Al representar las categorías de manera explícita, facilita la comprensión y el análisis de los datos.

3. **Mejora en el rendimiento:** Al utilizar datos categóricos en operaciones analíticas y de modelado, Pandas puede ofrecer mejoras en el rendimiento en comparación con el uso de texto o valores numéricos.

### Manipulación de Datos Categóricos en Pandas

Pandas proporciona el tipo de datos `Categorical` para manejar datos categóricos. Al convertir columnas a datos categóricos, se pueden realizar operaciones específicas, como ordenar por el orden de las categorías o realizar operaciones de agrupamiento basadas en ellas. Además, Pandas ofrece métodos específicos para trabajar con datos categóricos, como la visualización de las categorías únicas y la frecuencia de cada categoría.



In [97]:
import pandas as pd

data = {"Nombre": ["Antonio", "Dani", "Ana", "Pepe", "Jose"], 
        "Trabajo" : ["Profe", "Consultor", "Matrona", "Ing", "Abogado"],
        "Sangre": ["A", "B", "AB", "A+","B"],
        "Edad": [26,25,25,25,26]}

df = pd.DataFrame(data, [1,2,3,4,5])
df["Sangre"] = df["Sangre"].astype("category")
df.dtypes
        
        

Nombre       object
Trabajo      object
Sangre     category
Edad          int64
dtype: object

In [100]:
print("Categorias:", df["Sangre"].cat.categories)
print("-"*50)
print(df["Sangre"].value_counts())


Categorias: Index(['A', 'A+', 'AB', 'B'], dtype='object')
--------------------------------------------------
Sangre
B     2
A     1
A+    1
AB    1
Name: count, dtype: int64


# 8. Fechas y tiempo<a id="Fechas-tiempo"></a>

Trabajar con fechas y tiempos en Pandas es esencial para muchas tareas de análisis de datos, especialmente cuando se trata de datos temporales o series de tiempo. Pandas proporciona funcionalidades robustas para manejar fechas y tiempos, lo que facilita su manipulación, análisis y visualización.

### Creación de Fechas y Tiempos:

Pandas proporciona objetos de fecha y tiempo, como `Timestamp` y `DatetimeIndex`, que te permiten representar y trabajar con fechas y tiempos de manera eficiente. Puedes crear estas estructuras de datos de varias maneras, como utilizando la función `pd.to_datetime()` o la función `pd.date_range()`. Por ejemplo:

In [103]:
import pandas as pd

# Crear un objeto Timestamp
fecha = pd.Timestamp('2022-03-17 12:30:00')
print("Timestamp:", fecha)

# Crear un rango de fechas
rango_fechas = pd.date_range(start='2022-01-01', end='2022-01-10')
print("Rango de fechas:")
print(rango_fechas)


Timestamp: 2022-03-17 12:30:00
Rango de fechas:
DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08',
               '2022-01-09', '2022-01-10'],
              dtype='datetime64[ns]', freq='D')


### Indexación Temporal:

Puedes utilizar objetos de fecha y tiempo como índices en tus DataFrames, lo que facilita la manipulación y selección de datos basados en fechas y tiempos. Esto se puede lograr estableciendo el índice del DataFrame como un objeto `DatetimeIndex`. Por ejemplo:

In [104]:
# Crear un DataFrame con un índice de fechas
data = {'Valores': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}
df = pd.DataFrame(data, index=rango_fechas)
print("DataFrame con índice de fechas:")
print(df)

# Seleccionar datos para una fecha específica
print("Datos para una fecha específica:")
print(df.loc['2022-01-03'])

DataFrame con índice de fechas:
            Valores
2022-01-01        1
2022-01-02        2
2022-01-03        3
2022-01-04        4
2022-01-05        5
2022-01-06        6
2022-01-07        7
2022-01-08        8
2022-01-09        9
2022-01-10       10
Datos para una fecha específica:
Valores    3
Name: 2022-01-03 00:00:00, dtype: int64


### Funcionalidades Temporales:

Pandas ofrece una variedad de funcionalidades para trabajar con fechas y tiempos, como la conversión entre zonas horarias, el desplazamiento de fechas, el redondeo de fechas y la resampling de series de tiempo. Por ejemplo:

In [9]:
# Convertir a una zona horaria específica
df = df.tz_localize('UTC').tz_convert('America/New_York')

# Desplazar fechas hacia adelante o hacia atrás
df.index = df.index.shift(1, freq='D')

# Redondear fechas a intervalos específicos
df.index = df.index.round('H')

# Resampling de series de tiempo
df_resampled = df.resample('D').mean()


El manejo y la conversión de datos temporales en Pandas son operaciones comunes en el análisis de datos, especialmente cuando trabajas con series de tiempo o conjuntos de datos que contienen información de fecha y hora. 

### Conversión de Datos Temporales:

Puedes convertir datos temporales a objetos de fecha y tiempo en Pandas utilizando la función `pd.to_datetime()`. Esta función puede manejar una variedad de formatos de fecha y hora, incluidos formatos de cadena, enteros, flotantes y objetos de fecha y hora de Python. Por ejemplo:

In [274]:
import pandas as pd

# Convertir una cadena de fecha a objeto Timestamp
fecha = pd.to_datetime('2022-03-17')
print("Fecha convertida:", fecha)

# Convertir una lista de fechas a objeto DatetimeIndex
fechas = ['2022-01-01', '2022-01-02', '2022-01-03']
indices = pd.to_datetime(fechas)
print("Fechas convertidas:")
print(indices)

Fecha convertida: 2022-03-17 00:00:00
Fechas convertidas:
DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03'], dtype='datetime64[ns]', freq=None)


### Manipulación de Datos Temporales:

Una vez que tienes objetos de fecha y tiempo en Pandas, puedes manipularlos de varias maneras. Algunas operaciones comunes incluyen la extracción de componentes de fecha y hora, el cálculo de diferencias de tiempo y el desplazamiento de fechas hacia adelante o hacia atrás. Por ejemplo:

In [11]:
# Extraer el año, mes y día de una fecha
print("Año:", fecha.year)
print("Mes:", fecha.month)
print("Día:", fecha.day)

# Calcular la diferencia entre dos fechas
diferencia = fecha - pd.to_datetime('2022-01-01')
print("Diferencia de días:", diferencia.days)

# Desplazar una fecha hacia adelante o hacia atrás
nueva_fecha = fecha + pd.Timedelta(days=7)
print("Nueva fecha:", nueva_fecha)

Año: 2022
Mes: 3
Día: 17
Diferencia de días: 75
Nueva fecha: 2022-03-24 00:00:00


### Formateo de Datos Temporales:

Pandas también te permite formatear datos temporales en diferentes formatos utilizando el método `strftime()` (string format time). Este método te permite especificar el formato de salida deseado para la representación de fechas y horas. Por ejemplo:

In [108]:
# Formatear la fecha en formato dd/mm/aaaa
print("Fecha formateada:", fecha.strftime("%d/%m/%Y"))

# Formatear la fecha en formato mes/día/año abreviado
print("Fecha formateada:", fecha.strftime("%m %d, %Y"))


Fecha formateada: 17/03/2022
Fecha formateada: 03 17, 2022
