# Calidad de Datos. Correcccion


1. **Variables Numéricas:** Son números. Por ejemplo, la edad de las personas (20 años, 30 años).

2. **Variables Categóricas:** Son categorías o etiquetas. Por ejemplo, colores (rojo, azul) o tipos de frutas (manzana, naranja).

3. **Variables Ordinales:** Son como las categóricas, pero con un orden específico. Por ejemplo, niveles educativos (primaria, secundaria, universidad).

4. **Variables Binarias:** Solo pueden tener dos opciones. Por ejemplo, sí/no, verdadero/falso, o 1/0.

5. **Variables Continuas:** Son números que pueden tener muchos valores diferentes. Por ejemplo, la altura de las personas (1.75 metros, 1.80 metros).

6. **Variables Discretas:** Son números específicos, generalmente enteros. Por ejemplo, el número de hermanos (1, 2, 3).

7. **Variables de Tiempo:** Representan fechas y horas. Por ejemplo, la fecha de nacimiento o la hora de una reunión.

8. **Variables de Texto:** Contienen palabras o frases. Por ejemplo, nombres de personas o descripciones de productos.

9. **Variables de Ratio:** Son como las numéricas, pero con un punto de inicio absoluto. Por ejemplo, la temperatura en Kelvin.

10. **Variables Dummy:** Son variables binarias creadas para representar categorías. Por ejemplo, si tienes una variable categórica de colores, podrías tener variables dummy como "es_rojo" o "es_azul".

Estos son diferentes tipos de información que puedes encontrar al analizar datos. Identificar qué tipo de variable estás utilizando te ayuda a elegir las mejores formas de analizar y entender tus datos.

## Convertir Tipos de Variable

Existen dos formas de cambiar el tipo de variables:

1. **Usando el método general `astype()`:** Este método te permite especificar el tipo de dato al que quieres convertir la variable. Es bastante flexible, pero puede tener dificultades en situaciones más complicadas.

2. **Utilizando métodos específicos para ciertos tipos de datos:** En algunos casos, hay métodos especiales diseñados para convertir ciertos tipos de variables. Estos métodos están optimizados para esos casos específicos y pueden funcionar de manera más eficiente.

En resumen, `astype()` te da más libertad para elegir el tipo de dato, pero en situaciones complejas, los métodos específicos pueden ser más efectivos.

In [1]:
import pandas as pd
df=pd.read_excel('/Users/jimenacambronero/Desktop/Proyectos para Portfolio/PythonPracticas/Datos/Frutos_Secos_unicos.xlsx')

df.dtypes

Nombre Cliente            object
Tipo Producto             object
Precio (€/kg)            float64
Cantidad Vendida (kg)      int64
Fecha Venta               object
Provincia Cliente         object
id                         int64
Completado                object
dtype: object

Convertimos Country a categórica

    df.Provincia Cliente.astype('category').dtype

El querer hacer el cambio de una variable con un espacio, en Pythonnos dara error. Deberemos cambiar el nombre de las columnas sin espacios

In [2]:
df.columns= df.columns.str.replace(' ','')
df.head(3)

Unnamed: 0,NombreCliente,TipoProducto,Precio(€/kg),CantidadVendida(kg),FechaVenta,ProvinciaCliente,id,Completado
0,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz,389932,Si
1,Mercadona,Nueces,5.84,591,5/12/23,Sevilla,389933,Si
2,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid,389934,Si


In [3]:
# Ahora si podremos convertirla
df.ProvinciaCliente.astype('category').dtype

CategoricalDtype(categories=['Alicante', 'Barcelona', 'Cádiz', 'Madrid', 'Sevilla',
                  'Valencia'],
, ordered=False)

**Cuando cambiar una variable de Object a Category**

En Data Science, la elección entre tratar una variable como tipo `object` o `category` depende de la naturaleza de los datos y del propósito del análisis.

1. **Naturaleza de los datos**:
   - **Variables Categóricas Nominales**: Si la variable tiene categorías que no tienen un orden específico o jerarquía entre ellas (por ejemplo, colores o tipos de productos), generalmente se debe usar el tipo `category`.

   - **Variables Categóricas Ordinales**: Si la variable tiene categorías con un orden específico (por ejemplo, niveles de educación como "Primaria", "Secundaria", "Universidad"), es posible que desees usar `category`, pero también podrías considerar `object`.

   - **Variables de Texto**: Si la variable contiene texto libre o cadenas de caracteres largas y no hay una manera clara de categorizarlas, entonces probablemente debas usar `object`.

2. **Ahorro de Memoria**:
   - `category` puede ahorrar mucha memoria en comparación con `object`, especialmente cuando hay un número limitado de categorías únicas. Esto es importante si estás trabajando con grandes conjuntos de datos.

3. **Velocidad de Procesamiento**:
   - Las operaciones en columnas de tipo `category` a menudo son más rápidas que en columnas de tipo `object`. Esto puede ser importante para análisis de grandes conjuntos de datos.

4. **Uso de Librerías y Algoritmos**:
   - Algunos algoritmos y librerías de machine learning requieren que las variables categóricas se codifiquen numéricamente (por ejemplo, con técnicas como one-hot encoding). En estos casos, puede ser beneficioso tener las variables como tipo `category`.

5. **Interpretación y Visualización**:
   - Las variables de tipo `category` suelen ser más fáciles de interpretar y visualizar en gráficos y visualizaciones.

6. **Manejo de Nulos**:
   - Las variables de tipo `category` pueden ser más eficientes en términos de manejo de valores nulos en comparación con las de tipo `object`.

En resumen, si tienes una variable con un número limitado de categorías únicas y es categórica en naturaleza, es probable que quieras considerar usar el tipo `category`. Sin embargo, si se trata de texto libre o datos que no se pueden categorizar fácilmente, entonces `object` podría ser la elección adecuada.

In [4]:
# No se ha asignado
df.dtypes

NombreCliente           object
TipoProducto            object
Precio(€/kg)           float64
CantidadVendida(kg)      int64
FechaVenta              object
ProvinciaCliente        object
id                       int64
Completado              object
dtype: object

Si ejecutamos la siguiente linea de código nuevamente nos dará error por como se escriben las columnas. 

    df.loc[:,'CantidadVendida(kg)'] = df.CantidadVendida(kg).astype('category')

Entonces debemos reemplazarlo ...

In [5]:
df.columns = df.columns.str.replace('(','')
df.columns = df.columns.str.replace (')', '')
df.columns

  df.columns = df.columns.str.replace('(','')
  df.columns = df.columns.str.replace (')', '')


Index(['NombreCliente', 'TipoProducto', 'Precio€/kg', 'CantidadVendidakg',
       'FechaVenta', 'ProvinciaCliente', 'id', 'Completado'],
      dtype='object')

In [6]:
df.loc[:,'CantidadVendidakg'] = df.CantidadVendidakg.astype('category')

df.dtypes

NombreCliente          object
TipoProducto           object
Precio€/kg            float64
CantidadVendidakg    category
FechaVenta             object
ProvinciaCliente       object
id                      int64
Completado             object
dtype: object

Cargo el dataset original

In [7]:
df = pd.read_csv('/Users/jimenacambronero/Desktop/Proyectos para Portfolio/PythonPracticas/Datos/Frutos_Secos.csv', sep=';', index_col='id')

In [8]:
# Varios por dicionario

tipos = {'Precio (€/kg)':'int',
         'Provincia Cliente':'category'}

df.astype(tipos).dtypes

Nombre Cliente             object
Tipo Producto              object
Precio (€/kg)               int64
Cantidad Vendida (kg)       int64
Fecha Venta                object
Provincia Cliente        category
dtype: object

In [9]:
# Todos los objetos a category

df.select_dtypes('object').astype('category').dtypes

Nombre Cliente       category
Tipo Producto        category
Fecha Venta          category
Provincia Cliente    category
dtype: object

## Convertir a Tipo Numérico

para casos donde la variable si que es numérica pero te la reconoce como otra marca, por ejemplo un string

In [10]:
pd.to_numeric(df.loc[:, 'Precio (€/kg)']).dtype

dtype('float64')

## Convertir a Tipo Fecha



1. `errors`: Este parámetro te permite decirle a Python qué hacer si encuentra algo que no puede convertir en una fecha o hora. Usualmente, se configura en 'coerce', lo que significa que si no puede convertir algo, lo dejará como un valor nulo en lugar de generar un error.

2. `infer_datetime_format`: Cuando este parámetro está configurado en True, Python intentará adivinar automáticamente el formato de las fechas en la cadena de texto que le proporcionas. Esto puede ser útil si las fechas tienen formatos diferentes en tus datos.

3. `format`: Este parámetro te permite especificar el formato exacto de las fechas en la cadena de texto que le proporcionas. Para configurarlo correctamente, puedes consultar la documentación que muestra cómo representar diferentes partes de una fecha o hora. El enlace proporcionado te dará códigos que puedes usar para describir el formato que estás utilizando en tus datos.

En resumen, estos parámetros son útiles cuando trabajas con fechas y horas en Python y necesitas controlar cómo se manejan los errores de conversión, si deseas que Python adivine el formato de las fechas automáticamente o si prefieres especificar el formato exacto que estás usando en tus datos.

In [11]:
# En muchos casos por defecto lo hará bien automaticamente
pd.to_datetime('13/08/2020')

  pd.to_datetime('13/08/2020')


Timestamp('2020-08-13 00:00:00')

In [12]:
pd.to_datetime('13/08/2023', dayfirst=True)

Timestamp('2023-08-13 00:00:00')

In [13]:
# Corregido Format
pd.to_datetime('13082023', format='%d%m%Y')

Timestamp('2023-08-13 00:00:00')

# Cambiar el Formato de la Fecha

In [14]:
# Formato origen de la fecha
df['Fecha Venta'].head()

id
389932    29/3/23
389933    5/12/23
389934    26/7/23
389935    7/10/23
389936    12/5/23
Name: Fecha Venta, dtype: object

### Cambiar a tipo europeo

    df['Fecha Venta'].dt.strftime('%m/%d/%Y')

no dara error


In [15]:
# Supongamos que el dataframe y Fecha Venta esta en formato 'DD/MM/YY'
# Convertir Fecha Venta al tipo de dato datetime
df['Fecha Venta'] = pd.to_datetime(df['Fecha Venta'], format='%d/%m/%y')

# Ahora puedo usar el accesor. dt para formatear la fecha en el formato que deseo
df['Fecha Venta Formateada'] = df['Fecha Venta'].dt.strftime('%m/%d/%Y')

# Mostrar el dataFrame resultante
print(df.dtypes)
print('\n')
print(df['Fecha Venta'].head(3))


Nombre Cliente                    object
Tipo Producto                     object
Precio (€/kg)                    float64
Cantidad Vendida (kg)              int64
Fecha Venta               datetime64[ns]
Provincia Cliente                 object
Fecha Venta Formateada            object
dtype: object


id
389932   2023-03-29
389933   2023-12-05
389934   2023-07-26
Name: Fecha Venta, dtype: datetime64[ns]


## Convertir de Categórica a Ordenada

La conversión de una variable a categórica ordenada puede ser útil en varios casos en el análisis de datos. Aquí hay algunas situaciones en las que podría interesarte hacerlo:

1. **Cuando tienes categorías con un orden significativo:** Si tus datos tienen una variable categórica en la que el orden entre las categorías importa, como niveles educativos (primaria, secundaria, universidad), convertirla en una variable categórica ordenada permite que el análisis tenga en cuenta este orden. Esto es importante para cálculos estadísticos y visualizaciones que involucran comparaciones de categorías en función de su orden.

2. **Cuando deseas ahorrar espacio en memoria:** Las variables categóricas ocupan menos espacio en memoria que las variables de texto. Si tienes una columna categórica con muchas categorías únicas, convertirla a categórica ordenada puede ayudarte a ahorrar memoria y mejorar el rendimiento de tus análisis.

3. **Cuando deseas garantizar el orden en las visualizaciones:** Al convertir una variable a categórica ordenada, puedes asegurarte de que las visualizaciones, como gráficos de barras o diagramas de caja, muestren las categorías en el orden correcto. Esto hace que las visualizaciones sean más comprensibles y significativas.

4. **Cuando necesitas realizar operaciones específicas:** Algunas operaciones estadísticas o de modelado de datos requieren que las variables categóricas sean ordenadas. Al convertirla a categórica ordenada, estás preparando tus datos para estas operaciones.

En resumen, convierte una variable a categórica ordenada cuando el orden entre las categorías es importante para tu análisis, deseas ahorrar memoria, o necesitas garantizar el orden en visualizaciones y operaciones específicas. Esto puede hacer que tus análisis de datos sean más precisos y eficientes.

Cuando trabajas con variables categóricas en Pandas, estas pueden ser de dos tipos:

1. **Nominales:** Estas categorías no tienen un orden específico, como colores o tipos de frutas. No hay una relación de "mayor" o "menor" entre ellas.

2. **Ordinales:** En cambio, las variables ordinales tienen un orden, como niveles de educación (primaria, secundaria, universidad), donde uno es superior al otro.

Para manejar estas variables de manera eficiente en Pandas, es una buena práctica convertirlas al tipo de dato categórico. Aquí están los pasos:

1. **Para convertir a nominal:** Utiliza el método `astype('category')`. Esto ayudará a ahorrar espacio en memoria y a procesar los datos de manera más eficiente.

2. **Para convertir a ordinal:** Si la variable es ordinal y tiene un orden específico, primero debes crear ese orden en una lista y utilizar `CategoricalDtype()` con el parámetro `ordered=True`. Luego, pasa ese orden al método `astype()` para establecer el orden de la variable.

In [16]:
#Quitamos espacios y caracteres que traen errores
df.columns = df.columns.str.replace(')', '')
df.columns = df.columns.str.replace('(','')
df.columns = df.columns.str.replace(' ','')

df.head()

  df.columns = df.columns.str.replace(')', '')
  df.columns = df.columns.str.replace('(','')


Unnamed: 0_level_0,NombreCliente,TipoProducto,Precio€/kg,CantidadVendidakg,FechaVenta,ProvinciaCliente,FechaVentaFormateada
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
389932,Mas y Mas,Almendras,4.54,1212,2023-03-29,Cádiz,03/29/2023
389933,Mercadona,Nueces,5.84,591,2023-12-05,Sevilla,12/05/2023
389934,Alcampo,Cacahuetes,2.69,2831,2023-07-26,Madrid,07/26/2023
389935,Mas y Mas,Pistachos,6.7,516,2023-10-07,Alicante,10/07/2023
389936,Lidl,Nueces,6.14,1283,2023-05-12,Barcelona,05/12/2023


In [17]:
# Comprobamos el tipo actual
df.NombreCliente.dtype

dtype('O')

In [18]:
# Comprobamos los diferentes valores que puede tomar
df.NombreCliente.unique()

array(['Mas y Mas', 'Mercadona', 'Alcampo', 'Lidl', 'Carrefour', 'Dia',
       'Consum', 'Caprabo', 'Aldi', 'Eroski', 'Family Cash'], dtype=object)

In [19]:
# Definimos un orden
orden_Status = pd.CategoricalDtype(['Mercadona', 'Carrefour', 'Alcampo', 'Mas y Mas', 'Dia','Consum', 'Caprabo', 'Aldi', 'Eroski', 'Family Cash', 'Lidl'],ordered=True)

In [20]:
# Aplicamos el orden y comprobamos sus valores
df['NombreCliente'] = df['NombreCliente'].astype(orden_Status)
df['NombreCliente'].unique()

['Mas y Mas', 'Mercadona', 'Alcampo', 'Lidl', 'Carrefour', ..., 'Consum', 'Caprabo', 'Aldi', 'Eroski', 'Family Cash']
Length: 11
Categories (11, object): ['Mercadona' < 'Carrefour' < 'Alcampo' < 'Mas y Mas' ... 'Aldi' < 'Eroski' < 'Family Cash' < 'Lidl']

In [21]:
# Vemos que ahora su tipo categórico es ordenado
df['NombreCliente'].dtype

CategoricalDtype(categories=['Mercadona', 'Carrefour', 'Alcampo', 'Mas y Mas', 'Dia',
                  'Consum', 'Caprabo', 'Aldi', 'Eroski', 'Family Cash',
                  'Lidl'],
, ordered=True)

Si la variable ya fuera categórica, pero sin orden, o incluso si ya tiene orden pero queres cambiarlo? Entonces usamos .cat.set_categories().

Por ejemplo pongamos a 'Lidl' primero.

In [22]:
#asignamos el nuevo orden

df['NombreCliente'] = df.NombreCliente.cat.set_categories (['Lidl','Mercadona', 'Carrefour', 'Alcampo', 'Mas y Mas', 'Dia','Consum', 'Caprabo', 'Aldi', 'Eroski', 'Family Cash'],ordered=True)

In [23]:
df['NombreCliente']

id
389932    Mas y Mas
389933    Mercadona
389934      Alcampo
389935    Mas y Mas
389936         Lidl
            ...    
390227      Caprabo
390228      Alcampo
390229    Mas y Mas
390230    Mas y Mas
390231         Aldi
Name: NombreCliente, Length: 300, dtype: category
Categories (11, object): ['Lidl' < 'Mercadona' < 'Carrefour' < 'Alcampo' ... 'Caprabo' < 'Aldi' < 'Eroski' < 'Family Cash']

In [24]:
df.NombreCliente

id
389932    Mas y Mas
389933    Mercadona
389934      Alcampo
389935    Mas y Mas
389936         Lidl
            ...    
390227      Caprabo
390228      Alcampo
390229    Mas y Mas
390230    Mas y Mas
390231         Aldi
Name: NombreCliente, Length: 300, dtype: category
Categories (11, object): ['Lidl' < 'Mercadona' < 'Carrefour' < 'Alcampo' ... 'Caprabo' < 'Aldi' < 'Eroski' < 'Family Cash']

## Eliminar Filas y Columnas

No hace **Inplace** automaticamente

No agarra por **Posiciones**

In [25]:
df.head(5)

Unnamed: 0_level_0,NombreCliente,TipoProducto,Precio€/kg,CantidadVendidakg,FechaVenta,ProvinciaCliente,FechaVentaFormateada
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
389932,Mas y Mas,Almendras,4.54,1212,2023-03-29,Cádiz,03/29/2023
389933,Mercadona,Nueces,5.84,591,2023-12-05,Sevilla,12/05/2023
389934,Alcampo,Cacahuetes,2.69,2831,2023-07-26,Madrid,07/26/2023
389935,Mas y Mas,Pistachos,6.7,516,2023-10-07,Alicante,10/07/2023
389936,Lidl,Nueces,6.14,1283,2023-05-12,Barcelona,05/12/2023


In [26]:
# Eliminar Variables
df.drop(columns=['NombreCliente', 'FechaVenta']).head(5)

Unnamed: 0_level_0,TipoProducto,Precio€/kg,CantidadVendidakg,ProvinciaCliente,FechaVentaFormateada
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
389932,Almendras,4.54,1212,Cádiz,03/29/2023
389933,Nueces,5.84,591,Sevilla,12/05/2023
389934,Cacahuetes,2.69,2831,Madrid,07/26/2023
389935,Pistachos,6.7,516,Alicante,10/07/2023
389936,Nueces,6.14,1283,Barcelona,05/12/2023


In [27]:
# Eliminar registros
df.drop(index=[389932,389933]).head(2)

Unnamed: 0_level_0,NombreCliente,TipoProducto,Precio€/kg,CantidadVendidakg,FechaVenta,ProvinciaCliente,FechaVentaFormateada
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
389934,Alcampo,Cacahuetes,2.69,2831,2023-07-26,Madrid,07/26/2023
389935,Mas y Mas,Pistachos,6.7,516,2023-10-07,Alicante,10/07/2023


In [28]:
# Para eliminar registros por posición, ejemplo lo 5 primeros, obtienes su nombre con index
a_eliminar = df.index[0:5]
a_eliminar

Int64Index([389932, 389933, 389934, 389935, 389936], dtype='int64', name='id')

In [29]:
# y despúes se elimina
df.drop(index = a_eliminar)

Unnamed: 0_level_0,NombreCliente,TipoProducto,Precio€/kg,CantidadVendidakg,FechaVenta,ProvinciaCliente,FechaVentaFormateada
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
389937,Carrefour,Almendras,1.92,2741,2023-03-24,Cádiz,03/24/2023
389938,Lidl,Pistachos,3.88,2898,2023-03-08,Sevilla,03/08/2023
389939,Alcampo,Almendras,3.76,2464,2023-03-01,Madrid,03/01/2023
389940,Dia,Almendras,6.46,641,2023-09-26,Alicante,09/26/2023
389941,Consum,Pistachos,8.70,646,2023-11-23,Cádiz,11/23/2023
...,...,...,...,...,...,...,...
390227,Caprabo,Nueces,9.75,2367,2023-09-15,Sevilla,09/15/2023
390228,Alcampo,Pistachos,3.82,1951,2023-09-19,Madrid,09/19/2023
390229,Mas y Mas,Pistachos,5.22,2811,2023-05-04,Valencia,05/04/2023
390230,Mas y Mas,Cacahuetes,8.07,473,2023-01-18,Madrid,01/18/2023


## Insertar Variables

La función `insert()` se utiliza en Pandas cuando deseas agregar una nueva columna a un DataFrame en una posición específica. Aquí están los puntos clave:

1. **loc:** Este parámetro te permite especificar la posición en la que deseas insertar la nueva columna. Puedes indicar la posición utilizando un número entero, donde 0 sería la primera columna, 1 sería la segunda, y así sucesivamente.

2. **column:** Debes proporcionar el nombre de la nueva columna que deseas agregar al DataFrame.

3. **value:** Aquí, puedes proporcionar los valores que deseas asignar a esa nueva columna. Puedes proporcionar una lista de valores, un valor único que se replicará en toda la columna o cualquier otro objeto de datos que sea coherente con el número de filas en tu DataFrame.

Un aspecto importante a tener en cuenta es que la función `insert()` modifica el DataFrame existente directamente (inplace), por lo que no es necesario asignar el resultado a una nueva variable. La columna se insertará en la posición especificada y se actualizará el DataFrame original.

En resumen, `insert()` es útil cuando necesitas agregar una nueva columna a tu DataFrame en una ubicación específica y deseas hacerlo directamente en el DataFrame actual.

In [30]:
# Insertamos una nueva variable
df.insert(2, 'Facturado', df['Precio€/kg']*df['CantidadVendidakg'])

In [31]:
df.head(5)

Unnamed: 0_level_0,NombreCliente,TipoProducto,Facturado,Precio€/kg,CantidadVendidakg,FechaVenta,ProvinciaCliente,FechaVentaFormateada
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
389932,Mas y Mas,Almendras,5502.48,4.54,1212,2023-03-29,Cádiz,03/29/2023
389933,Mercadona,Nueces,3451.44,5.84,591,2023-12-05,Sevilla,12/05/2023
389934,Alcampo,Cacahuetes,7615.39,2.69,2831,2023-07-26,Madrid,07/26/2023
389935,Mas y Mas,Pistachos,3457.2,6.7,516,2023-10-07,Alicante,10/07/2023
389936,Lidl,Nueces,7877.62,6.14,1283,2023-05-12,Barcelona,05/12/2023


## Eliminar Nulos

La función `dropna()` se utiliza para eliminar registros o columnas que contienen valores nulos en un DataFrame. Aquí están los detalles clave:

1. **axis:** Este parámetro te permite especificar si deseas eliminar registros con nulos (si se establece en 0 o "index") o columnas con nulos (si se establece en 1 o "columns"). Es decir, decides si estás interesado en eliminar filas o columnas con nulos.

2. **how:** Por defecto, está configurado en 'any', lo que significa que eliminará un registro o columna si contiene al menos un valor nulo. Puedes cambiarlo a 'all' para eliminar solo si todos los valores son nulos en el registro o columna.

3. **subset:** Con este parámetro, puedes especificar un subconjunto de columnas en las que deseas buscar valores nulos. Si se proporciona, solo se considerarán los nulos en las columnas especificadas para la eliminación.

4. **thresh:** Este parámetro te permite establecer un umbral para la eliminación. Por ejemplo, si lo configuras en 100, eliminará registros o columnas solo si tienen al menos 100 valores nulos.

5. **inplace:** Por defecto, está configurado en False, lo que significa que la operación no se realizará en su lugar y, en su lugar, se devolverá un nuevo DataFrame sin los registros o columnas con nulos. Si lo estableces en True, la operación se realizará en el DataFrame original, y no se devolverá un nuevo DataFrame.

En resumen, `dropna()` es útil cuando deseas limpiar tu DataFrame eliminando registros o columnas con valores nulos. Puedes especificar cómo deseas realizar esta eliminación utilizando los parámetros mencionados anteriormente.

In [32]:
df = pd.read_csv('/Users/jimenacambronero/Desktop/Proyectos para Portfolio/PythonPracticas/Datos/registros_nulos.csv')

In [33]:
# Dimensiones del DataSet original
df.shape

(50, 4)

In [34]:
# Dimensiones del DataSet tras eliminar las columnas con nulos
df.dropna(axis = 1).shape

(50, 2)

In [35]:
# Dimensiones del DataSet tras eliminar los registros con nulos
df.dropna(axis = 0).shape

(19, 4)

## Reemplazar Nulos

La función `fillna()` se utiliza para reemplazar los valores nulos en una Serie o DataFrame con otro valor. Aquí están los detalles clave:

1. **value:** Este parámetro te permite especificar el valor que deseas utilizar para reemplazar los nulos. Puedes elegir un valor fijo, como 0, o incluso calcular un valor al vuelo, como la media de los datos.

2. **method:** Si prefieres reemplazar los nulos por valores de la fila anterior, puedes establecer este parámetro en 'ffill' (forward fill). Si prefieres utilizar valores de la fila siguiente, puedes establecerlo en 'bfill' (backward fill). Esto es útil cuando los datos están ordenados y deseas propagar los valores no nulos hacia arriba o hacia abajo.

3. **inplace:** Al igual que con otras funciones en Pandas, por defecto, `fillna()` no modifica el DataFrame o la Serie original y devuelve un nuevo objeto con los valores nulos reemplazados. Si deseas realizar la operación en su lugar, puedes establecer este parámetro en True.

En resumen, `fillna()` es útil cuando deseas tratar los valores nulos en tus datos y reemplazarlos por valores específicos, como un valor fijo o valores calculados. También puedes propagar valores no nulos hacia arriba o hacia abajo según el orden de tus datos si eso es relevante para tu análisis.

In [36]:
df.head(3)

Unnamed: 0,ID,Nombre,Edad,Puntuacion
0,1,Nombre1,,95.0
1,2,Nombre2,25.0,
2,3,Nombre3,,


In [37]:
# Conteo de Edad incluyendo nulos
df.Edad.value_counts(dropna=False)

30.0    19
25.0    16
NaN     15
Name: Edad, dtype: int64

In [38]:
# Conteo de edad tras imputar nulos por la moda
moda_Edad = df.Edad.mode().values[0]

df.Edad.fillna(value=moda_Edad).value_counts(dropna=False)

30.0    34
25.0    16
Name: Edad, dtype: int64

**CUIDADO:**

Si intentas reemplazar por un nuevo valor en una variable categórica que no está entre los valores originales tienes que hacer 2 pasos:

1. Añadir la nueva categoría con .cat.add_categories()
2. Reemplazar el valor

Pandas no añade la nueva categoría directamente.

Por ejemplo, si Edad fuera categórica, y supieras que sus nulos son de una edad que no está entre sus valores actuales, pongamos 92, y quieres imputar los nulos por 92 tendrías que hacer así:

df.Edad.cat.add_categories('92',inplace=True)

df.Edad.fillna(value = '92',inplace=True)

## Eliminar Duplicados

La función `drop_duplicates()` se utiliza para eliminar registros duplicados en un DataFrame. Aquí están los detalles clave:

1. **subset:** Este parámetro te permite especificar las columnas en las que deseas buscar duplicados. Por defecto, considerará todas las columnas, pero puedes limitar la búsqueda a un subconjunto de columnas si es necesario.

2. **keep:** Cuando se encuentran registros duplicados, este parámetro te permite especificar cuál de los registros duplicados deseas mantener. Por defecto, está configurado en 'first', lo que significa que mantendrá el primer registro encontrado y eliminará los duplicados subsiguientes. Puedes configurarlo en 'last' para mantener el último duplicado encontrado.

3. **inplace:** Al igual que con otras funciones en Pandas, por defecto, `drop_duplicates()` no modifica el DataFrame original y devuelve un nuevo DataFrame sin los registros duplicados. Si deseas realizar la operación en su lugar y modificar el DataFrame original, puedes establecer este parámetro en True.

En resumen, `drop_duplicates()` es útil cuando deseas eliminar registros duplicados en tu DataFrame. Puedes personalizar la búsqueda de duplicados en columnas específicas y decidir si deseas mantener el primer o último duplicado encontrado.

In [39]:
df = pd.read_excel('/Users/jimenacambronero/Desktop/Proyectos para Portfolio/PythonPracticas/Datos/Frutos_Secos_duplicados.xlsx', index_col='id')

In [40]:
df.shape

(323, 6)

In [41]:
df.drop_duplicates()

Unnamed: 0_level_0,Nombre Cliente,Tipo Producto,Precio (€/kg),Cantidad Vendida (kg),Fecha Venta,Provincia Cliente
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
389932,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz
389933,Mercadona,Nueces,5.84,591,5/12/23,Sevilla
389934,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid
389935,Mas y Mas,Pistachos,6.70,516,7/10/23,Alicante
389936,Lidl,Nueces,6.14,1283,12/5/23,Barcelona
...,...,...,...,...,...,...
390227,Caprabo,Nueces,9.75,2367,15/9/23,Sevilla
390228,Alcampo,Pistachos,3.82,1951,19/9/23,Madrid
390229,Mas y Mas,Pistachos,5.22,2811,4/5/23,Valencia
390230,Mas y Mas,Cacahuetes,8.07,473,18/1/23,Madrid


## Renombrar Variables

`rename()` es una función en la librería Pandas de Python que te permite cambiar los nombres de las columnas y del índice de un DataFrame. Puedes usarlo para darle nombres más descriptivos o para corregir errores en los nombres originales.

- **Uso para cambiar nombres de columnas**:
  - Por ejemplo, si tienes una columna llamada 'edad' y prefieres llamarla 'años', puedes hacerlo así:
    ```python
    df.rename(columns={'edad': 'años'}, inplace=True)
    ```
    Esto cambiará el nombre de la columna 'edad' a 'años' en el DataFrame `df`.

- **Uso para cambiar nombres de índice**:
  - Si quieres cambiar los nombres de las filas o índice, puedes hacerlo de manera similar:
    ```python
    df.rename(index={'viejo_indice': 'nuevo_indice'}, inplace=True)
    ```
    Esto reemplazará el nombre 'viejo_indice' por 'nuevo_indice' en el índice del DataFrame.

- **El parámetro `inplace`**:
  - Es un argumento opcional que, si se establece en `True`, hará que la modificación se realice directamente en el DataFrame sin necesidad de asignar el resultado a una nueva variable. Si se omite o se establece en `False` (que es el valor por defecto), tendrás que asignar el resultado a una nueva variable para ver el cambio.

En resumen, `rename()` es una herramienta útil para cambiar nombres de columnas e índices en un DataFrame de Pandas. Puedes usarlo con un diccionario que mapea los nombres antiguos a los nuevos, y si deseas que los cambios se apliquen directamente al DataFrame original, puedes utilizar el parámetro `inplace=True`.

In [42]:
df.columns

Index(['Nombre Cliente', 'Tipo Producto', 'Precio (€/kg)',
       'Cantidad Vendida (kg)', 'Fecha Venta', 'Provincia Cliente'],
      dtype='object')

In [43]:
df.rename(columns= { 
    'Nombre Cliente': 'Cliente',
    'Tipo Producto': 'Producto',
    'Precio (€/kg)': 'Precio',
    'Cantidad Vendida (kg)': 'Cantidad',
    'Fecha Venta': 'Fecha',
    'Provincia Cliente': 'Provincia'})

Unnamed: 0_level_0,Cliente,Producto,Precio,Cantidad,Fecha,Provincia
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
389932,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz
389933,Mercadona,Nueces,5.84,591,5/12/23,Sevilla
389934,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid
389935,Mas y Mas,Pistachos,6.70,516,7/10/23,Alicante
389936,Lidl,Nueces,6.14,1283,12/5/23,Barcelona
...,...,...,...,...,...,...
389955,Caprabo,Cacahuetes,6.24,1626,5/2/23,Valencia
389955,Caprabo,Cacahuetes,6.24,1626,5/2/23,Valencia
389955,Caprabo,Cacahuetes,6.24,1626,5/2/23,Valencia
389955,Caprabo,Cacahuetes,6.24,1626,5/2/23,Valencia


In [44]:
# Sin inplace no te cambia nada, recorda agregar inplace si quiero que cambie
df.head(2)

Unnamed: 0_level_0,Nombre Cliente,Tipo Producto,Precio (€/kg),Cantidad Vendida (kg),Fecha Venta,Provincia Cliente
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
389932,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz
389933,Mercadona,Nueces,5.84,591,5/12/23,Sevilla


Hay una forma más fácil de limpiar los nombres de las variables en un conjunto de datos.

A veces, los nombres de las variables pueden tener acentos, espacios o caracteres especiales, lo cual puede complicar el trabajo con los datos. También, es una buena práctica poner todos los nombres en minúsculas para mantener la consistencia.

Para hacer esto de manera rápida y sencilla, existe una herramienta llamada Pyjanitor. Es como una especie de "asistente" que te ayuda a limpiar los nombres de las variables en un DataFrame.

Aquí hay un resumen de cómo hacerlo:

1. **Instalación de Pyjanitor**:
   - Puedes instalar Pyjanitor en tu entorno de Python utilizando el comando `conda install pyjanitor -c conda-forge`.

2. **Importar la función**:
   - Una vez instalado, puedes importar la función que te permitirá limpiar los nombres de las variables. La función se llama `clean_names`.

   ```python
   from janitor import clean_names
   ```

3. **Cómo usarlo**:
   - Una vez que has importado la función, puedes aplicarla a tu DataFrame. Por ejemplo:

   ```python
   df_clean = clean_names(df)
   ```

   Esto tomará el DataFrame `df` y limpiará los nombres de las variables, eliminando acentos, caracteres especiales y espacios en blanco, además de poner todo en minúsculas. El resultado se guardará en `df_clean`.

En resumen, Pyjanitor es una herramienta muy útil que te ayuda a limpiar y estandarizar los nombres de las variables en tus conjuntos de datos de una manera rápida y sencilla. Esto facilita mucho el trabajo con los datos y la realización de análisis.

      pip install pyjanitor 

In [45]:
df = pd.read_csv('/Users/jimenacambronero/Desktop/Proyectos para Portfolio/PythonPracticas/Datos/ejemplo_janitor.csv', sep= ';' )

df

Unnamed: 0,Columna Espacio,NoMbEs-CoN-MaYUs,Ácéntós
0,100,a,Enero
1,101,a,Febrero
2,102,a,Marzo
3,103,a,Abril
4,104,a,Mayo
5,105,a,Junio
6,106,a,Julio


In [46]:
df.columns

Index(['Columna Espacio', 'NoMbEs-CoN-MaYUs', 'Ácéntós'], dtype='object')

In [47]:
from janitor import clean_names
df_cleaned = clean_names(df)
df_cleaned

Unnamed: 0,columna_espacio,nombes_con_mayus,acentos
0,100,a,Enero
1,101,a,Febrero
2,102,a,Marzo
3,103,a,Abril
4,104,a,Mayo
5,105,a,Junio
6,106,a,Julio


## Reemplazar Valores

La función `replace()` en Pandas es utilizada para reemplazar la presencia de un valor con otro en una Serie o en todo un DataFrame. Aquí hay una explicación sencilla:

- **to_replace**: Este es el valor que deseas reemplazar en tus datos. Puede ser un número, una cadena de texto u otros tipos de datos. También puedes usar cosas más avanzadas como diccionarios o expresiones regulares para identificar lo que quieres reemplazar.

- **value**: Este es el nuevo valor que deseas colocar en lugar del valor antiguo.

- **inplace**: Es un parámetro opcional. Si se establece en `True`, realizará el reemplazo directamente en el DataFrame o Serie original sin necesidad de asignar el resultado a una nueva variable. Por defecto, es `False`, lo que significa que necesitas asignar el resultado a una nueva variable o usarlo en una operación posterior.

**Ejemplo sencillo:**

Supongamos que tienes una Serie llamada `edades` y quieres reemplazar todas las instancias del valor 30 con 35:

```python
edades.replace(to_replace=30, value=35, inplace=True)
```

En este ejemplo, la función `replace()` buscará en la Serie `edades` el valor 30 y lo reemplazará por 35. El parámetro `inplace=True` asegura que el cambio se realice directamente en la Serie original.

Esta función es útil cuando necesitas corregir o modificar datos en tu conjunto de datos para que se ajusten mejor a tus necesidades de análisis o visualización.

In [48]:
df = pd.read_excel('/Users/jimenacambronero/Desktop/Proyectos para Portfolio/PythonPracticas/Datos/Frutos_Secos.xlsx')
df.head(5)

Unnamed: 0,Nombre Cliente,Tipo Producto,Precio (€/kg),Cantidad Vendida (kg),Fecha Venta,Provincia Cliente,id
0,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz,389932
1,Mercadona,Nueces,5.84,591,5/12/23,Sevilla,389933
2,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid,389934
3,Mas y Mas,Pistachos,6.7,516,7/10/23,Alicante,389935
4,Lidl,Nueces,6.14,1283,12/5/23,Barcelona,389936


In [49]:
df.rename(columns= { 
    'Nombre Cliente': 'Cliente',
    'Tipo Producto': 'Producto',
    'Precio (€/kg)': 'Precio',
    'Cantidad Vendida (kg)': 'Cantidad',
    'Fecha Venta': 'Fecha',
    'Provincia Cliente': 'Provincia'}, inplace=True)

In [50]:
df.Cliente.replace('Mas y Mas', 'MasyMas')

0        MasyMas
1      Mercadona
2        Alcampo
3        MasyMas
4           Lidl
         ...    
295      Caprabo
296      Alcampo
297      MasyMas
298      MasyMas
299         Aldi
Name: Cliente, Length: 300, dtype: object

In [51]:
# Recordar que sin inplace no lo cambia
df.head(5)

Unnamed: 0,Cliente,Producto,Precio,Cantidad,Fecha,Provincia,id
0,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz,389932
1,Mercadona,Nueces,5.84,591,5/12/23,Sevilla,389933
2,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid,389934
3,Mas y Mas,Pistachos,6.7,516,7/10/23,Alicante,389935
4,Lidl,Nueces,6.14,1283,12/5/23,Barcelona,389936


In [52]:
valores = {'Mas y Mas': 'MasyMas', 'Mercadona': 'Merca'}
df.replace(valores)

Unnamed: 0,Cliente,Producto,Precio,Cantidad,Fecha,Provincia,id
0,MasyMas,Almendras,4.54,1212,29/3/23,Cádiz,389932
1,Merca,Nueces,5.84,591,5/12/23,Sevilla,389933
2,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid,389934
3,MasyMas,Pistachos,6.70,516,7/10/23,Alicante,389935
4,Lidl,Nueces,6.14,1283,12/5/23,Barcelona,389936
...,...,...,...,...,...,...,...
295,Caprabo,Nueces,9.75,2367,15/9/23,Sevilla,390227
296,Alcampo,Pistachos,3.82,1951,19/9/23,Madrid,390228
297,MasyMas,Pistachos,5.22,2811,4/5/23,Valencia,390229
298,MasyMas,Cacahuetes,8.07,473,18/1/23,Madrid,390230


## Recodificar Valores

La función `map()` en Pandas te permite recodificar valores de una Serie según un diccionario o una función. Es muy útil cuando necesitas cambiar ciertos valores en una Serie de manera específica. Aquí te explico de manera sencilla:

- **Diccionario de recodificación**: Puedes proporcionar un diccionario que mapee los valores antiguos a los nuevos. Por ejemplo:

  ```python
  diccionario = {'viejo_valor': 'nuevo_valor', 'otro_viejo_valor': 'otro_nuevo_valor'}
  nueva_serie = serie_original.map(diccionario)
  ```

  Esto tomará la Serie original y reemplazará los valores de acuerdo al diccionario proporcionado.

- **Función de recodificación**: También puedes utilizar una función para realizar la recodificación. La función debe aceptar un valor y devolver el nuevo valor. Por ejemplo:

  ```python
  def recodificar(valor):
      if valor == 'A':
          return 'X'
      elif valor == 'B':
          return 'Y'
      else:
          return 'Z'

  nueva_serie = serie_original.map(recodificar)
  ```

  Esta función `recodificar()` toma un valor como entrada y devuelve un nuevo valor según las condiciones definidas.

- **`na_action`**: Es un parámetro opcional. Si lo estableces en `'ignore'`, la función no aplicará la transformación sobre los valores nulos y los dejará como están.

**Ejemplo sencillo**:

Supongamos que tienes una Serie `calificaciones` con valores 'A', 'B' y 'C', y deseas cambiarlos a 'Excelente', 'Bueno' y 'Regular' respectivamente:

```python
diccionario = {'A': 'Excelente', 'B': 'Bueno', 'C': 'Regular'}
nueva_serie = calificaciones.map(diccionario)
```

Esta operación creará una nueva Serie llamada `nueva_serie` en la que los valores se han recodificado según el diccionario proporcionado.

En resumen, `map()` es una herramienta flexible que te permite recodificar valores en una Serie de manera muy específica, ya sea utilizando un diccionario o una función personalizada.

In [53]:
# Valores Originales de Productos
df.Producto.value_counts(dropna=False)

Cacahuetes    100
Almendras      69
Pistachos      66
Nueces         65
Name: Producto, dtype: int64

In [55]:
# Ejemplo de recodificacion de un diccionario
producto_dict = {
    'Cacahuetes':'Tipo A',
    'Almendras': 'Tipo A',
    'Pistachos':'Tipo B',
    'Nueces': 'Tipo C'
}
df.Producto.map(producto_dict).value_counts(dropna=False)

Tipo A    169
Tipo B     66
Tipo C     65
Name: Producto, dtype: int64

In [56]:
# Ejemplo de recodificar con una función
def mayus(texto):
    return(texto.upper())

df.Producto.map(mayus).head(10)

0     ALMENDRAS
1        NUECES
2    CACAHUETES
3     PISTACHOS
4        NUECES
5     ALMENDRAS
6     PISTACHOS
7     ALMENDRAS
8     ALMENDRAS
9     PISTACHOS
Name: Producto, dtype: object

## Modificar Textos

Usaremos la variable texto de df para los ejemplos. Por comodidad vamos a guardarla en una variable propia y sólo con 5 registros.

Hay muchos más. 

In [57]:
texto = df.Producto[0:5]
texto


0     Almendras
1        Nueces
2    Cacahuetes
3     Pistachos
4        Nueces
Name: Producto, dtype: object

In [58]:
# Convertir todo a mayúsculas
texto.str.upper()

0     ALMENDRAS
1        NUECES
2    CACAHUETES
3     PISTACHOS
4        NUECES
Name: Producto, dtype: object

In [60]:
# Convertir todo a minúsculas
texto.str.lower()

0     almendras
1        nueces
2    cacahuetes
3     pistachos
4        nueces
Name: Producto, dtype: object

In [61]:
# Convertir todo a estilo frase, la primera con mayúscula
texto.str.capitalize()

0     Almendras
1        Nueces
2    Cacahuetes
3     Pistachos
4        Nueces
Name: Producto, dtype: object

In [62]:
# Convertir todo a estilo titular, la primera de cada palabra a mayúscula
texto.str.title()

0     Almendras
1        Nueces
2    Cacahuetes
3     Pistachos
4        Nueces
Name: Producto, dtype: object

In [63]:
# Unir cada elemto del texto por un separador
texto.str.join(sep = '--')

0       A--l--m--e--n--d--r--a--s
1                N--u--e--c--e--s
2    C--a--c--a--h--u--e--t--e--s
3       P--i--s--t--a--c--h--o--s
4                N--u--e--c--e--s
Name: Producto, dtype: object

In [65]:
# Concatenar
texto.str.cat()

'AlmendrasNuecesCacahuetesPistachosNueces'

In [66]:
# Separar
texto.str.split()

0     [Almendras]
1        [Nueces]
2    [Cacahuetes]
3     [Pistachos]
4        [Nueces]
Name: Producto, dtype: object

In [67]:
# Comprobar si empieza por
filtro = df.columns.str.startswith('Pro')
df.loc[:,filtro]


Unnamed: 0,Producto,Provincia
0,Almendras,Cádiz
1,Nueces,Sevilla
2,Cacahuetes,Madrid
3,Pistachos,Alicante
4,Nueces,Barcelona
...,...,...
295,Nueces,Sevilla
296,Pistachos,Madrid
297,Pistachos,Valencia
298,Cacahuetes,Madrid


In [69]:
# Comprobar si contiene
filtro = df.columns.str.contains('Precio')
df.loc[:,filtro]

Unnamed: 0,Precio
0,4.54
1,5.84
2,2.69
3,6.70
4,6.14
...,...
295,9.75
296,3.82
297,5.22
298,8.07


In [70]:
# Comprobar si termina por
filtro = df.columns.str.endswith('cio')
df.loc[:,filtro]

Unnamed: 0,Precio
0,4.54
1,5.84
2,2.69
3,6.70
4,6.14
...,...
295,9.75
296,3.82
297,5.22
298,8.07


In [71]:
# Longitud de un texto
texto.str.len()

0     9
1     6
2    10
3     9
4     6
Name: Producto, dtype: int64

In [72]:
texto

0     Almendras
1        Nueces
2    Cacahuetes
3     Pistachos
4        Nueces
Name: Producto, dtype: object

In [73]:
# Reemplazar valor
df.columns.str.replace(pat='Pr', repl='Br')

Index(['Cliente', 'Broducto', 'Brecio', 'Cantidad', 'Fecha', 'Brovincia',
       'id'],
      dtype='object')

In [74]:
# Encontrar valor (devuelve la posicion de la primera ocurrencia, y si no lo encuentra -1)
texto.str.strip()

0     Almendras
1        Nueces
2    Cacahuetes
3     Pistachos
4        Nueces
Name: Producto, dtype: object