# Calidad de Datos. Correcccion


1. **Variables Numéricas:** Son números. Por ejemplo, la edad de las personas (20 años, 30 años).

2. **Variables Categóricas:** Son categorías o etiquetas. Por ejemplo, colores (rojo, azul) o tipos de frutas (manzana, naranja).

3. **Variables Ordinales:** Son como las categóricas, pero con un orden específico. Por ejemplo, niveles educativos (primaria, secundaria, universidad).

4. **Variables Binarias:** Solo pueden tener dos opciones. Por ejemplo, sí/no, verdadero/falso, o 1/0.

5. **Variables Continuas:** Son números que pueden tener muchos valores diferentes. Por ejemplo, la altura de las personas (1.75 metros, 1.80 metros).

6. **Variables Discretas:** Son números específicos, generalmente enteros. Por ejemplo, el número de hermanos (1, 2, 3).

7. **Variables de Tiempo:** Representan fechas y horas. Por ejemplo, la fecha de nacimiento o la hora de una reunión.

8. **Variables de Texto:** Contienen palabras o frases. Por ejemplo, nombres de personas o descripciones de productos.

9. **Variables de Ratio:** Son como las numéricas, pero con un punto de inicio absoluto. Por ejemplo, la temperatura en Kelvin.

10. **Variables Dummy:** Son variables binarias creadas para representar categorías. Por ejemplo, si tienes una variable categórica de colores, podrías tener variables dummy como "es_rojo" o "es_azul".

Estos son diferentes tipos de información que puedes encontrar al analizar datos. Identificar qué tipo de variable estás utilizando te ayuda a elegir las mejores formas de analizar y entender tus datos.

## Convertir Tipos de Variable

Existen dos formas de cambiar el tipo de variables:

1. **Usando el método general `astype()`:** Este método te permite especificar el tipo de dato al que quieres convertir la variable. Es bastante flexible, pero puede tener dificultades en situaciones más complicadas.

2. **Utilizando métodos específicos para ciertos tipos de datos:** En algunos casos, hay métodos especiales diseñados para convertir ciertos tipos de variables. Estos métodos están optimizados para esos casos específicos y pueden funcionar de manera más eficiente.

En resumen, `astype()` te da más libertad para elegir el tipo de dato, pero en situaciones complejas, los métodos específicos pueden ser más efectivos.

In [1]:
import pandas as pd
df=pd.read_excel('/Users/jimenacambronero/Desktop/Proyectos para Portfolio/PythonPracticas/Datos/Frutos_Secos_unicos.xlsx')

df.dtypes

Nombre Cliente            object
Tipo Producto             object
Precio (€/kg)            float64
Cantidad Vendida (kg)      int64
Fecha Venta               object
Provincia Cliente         object
id                         int64
Completado                object
dtype: object

Convertimos Country a categórica

    df.Provincia Cliente.astype('category').dtype

El querer hacer el cambio de una variable con un espacio, en Pythonnos dara error. Deberemos cambiar el nombre de las columnas sin espacios

In [2]:
df.columns= df.columns.str.replace(' ','')
df.head(3)

Unnamed: 0,NombreCliente,TipoProducto,Precio(€/kg),CantidadVendida(kg),FechaVenta,ProvinciaCliente,id,Completado
0,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz,389932,Si
1,Mercadona,Nueces,5.84,591,5/12/23,Sevilla,389933,Si
2,Alcampo,Cacahuetes,2.69,2831,26/7/23,Madrid,389934,Si


In [3]:
# Ahora si podremos convertirla
df.ProvinciaCliente.astype('category').dtype

CategoricalDtype(categories=['Alicante', 'Barcelona', 'Cádiz', 'Madrid', 'Sevilla',
                  'Valencia'],
, ordered=False)

**Cuando cambiar una variable de Object a Category**

En Data Science, la elección entre tratar una variable como tipo `object` o `category` depende de la naturaleza de los datos y del propósito del análisis.

1. **Naturaleza de los datos**:
   - **Variables Categóricas Nominales**: Si la variable tiene categorías que no tienen un orden específico o jerarquía entre ellas (por ejemplo, colores o tipos de productos), generalmente se debe usar el tipo `category`.

   - **Variables Categóricas Ordinales**: Si la variable tiene categorías con un orden específico (por ejemplo, niveles de educación como "Primaria", "Secundaria", "Universidad"), es posible que desees usar `category`, pero también podrías considerar `object`.

   - **Variables de Texto**: Si la variable contiene texto libre o cadenas de caracteres largas y no hay una manera clara de categorizarlas, entonces probablemente debas usar `object`.

2. **Ahorro de Memoria**:
   - `category` puede ahorrar mucha memoria en comparación con `object`, especialmente cuando hay un número limitado de categorías únicas. Esto es importante si estás trabajando con grandes conjuntos de datos.

3. **Velocidad de Procesamiento**:
   - Las operaciones en columnas de tipo `category` a menudo son más rápidas que en columnas de tipo `object`. Esto puede ser importante para análisis de grandes conjuntos de datos.

4. **Uso de Librerías y Algoritmos**:
   - Algunos algoritmos y librerías de machine learning requieren que las variables categóricas se codifiquen numéricamente (por ejemplo, con técnicas como one-hot encoding). En estos casos, puede ser beneficioso tener las variables como tipo `category`.

5. **Interpretación y Visualización**:
   - Las variables de tipo `category` suelen ser más fáciles de interpretar y visualizar en gráficos y visualizaciones.

6. **Manejo de Nulos**:
   - Las variables de tipo `category` pueden ser más eficientes en términos de manejo de valores nulos en comparación con las de tipo `object`.

En resumen, si tienes una variable con un número limitado de categorías únicas y es categórica en naturaleza, es probable que quieras considerar usar el tipo `category`. Sin embargo, si se trata de texto libre o datos que no se pueden categorizar fácilmente, entonces `object` podría ser la elección adecuada.

In [4]:
# No se ha asignado
df.dtypes

NombreCliente           object
TipoProducto            object
Precio(€/kg)           float64
CantidadVendida(kg)      int64
FechaVenta              object
ProvinciaCliente        object
id                       int64
Completado              object
dtype: object

Si ejecutamos la siguiente linea de código nuevamente nos dará error por como se escriben las columnas. 

    df.loc[:,'CantidadVendida(kg)'] = df.CantidadVendida(kg).astype('category')

Entonces debemos reemplazarlo ...

In [7]:
df.columns = df.columns.str.replace('(','')
df.columns = df.columns.str.replace (')', '')
df.columns

  df.columns = df.columns.str.replace('(','')
  df.columns = df.columns.str.replace (')', '')


Index(['NombreCliente', 'TipoProducto', 'Precio€/kg', 'CantidadVendidakg',
       'FechaVenta', 'ProvinciaCliente', 'id', 'Completado'],
      dtype='object')

In [9]:
df.loc[:,'CantidadVendidakg'] = df.CantidadVendidakg.astype('category')

df.dtypes

NombreCliente          object
TipoProducto           object
Precio€/kg            float64
CantidadVendidakg    category
FechaVenta             object
ProvinciaCliente       object
id                      int64
Completado             object
dtype: object

Cargo el dataset original

In [11]:
df = pd.read_csv('/Users/jimenacambronero/Desktop/Proyectos para Portfolio/PythonPracticas/Datos/Frutos_Secos.csv', sep=';', index_col='id')

In [12]:
# Varios por dicionario

tipos = {'Precio (€/kg)':'int',
         'Provincia Cliente':'category'}

df.astype(tipos).dtypes

Nombre Cliente             object
Tipo Producto              object
Precio (€/kg)               int64
Cantidad Vendida (kg)       int64
Fecha Venta                object
Provincia Cliente        category
dtype: object

In [13]:
# Todos los objetos a category

df.select_dtypes('object').astype('category').dtypes

Nombre Cliente       category
Tipo Producto        category
Fecha Venta          category
Provincia Cliente    category
dtype: object

## Convertir a Tipo Fecha



1. `errors`: Este parámetro te permite decirle a Python qué hacer si encuentra algo que no puede convertir en una fecha o hora. Usualmente, se configura en 'coerce', lo que significa que si no puede convertir algo, lo dejará como un valor nulo en lugar de generar un error.

2. `infer_datetime_format`: Cuando este parámetro está configurado en True, Python intentará adivinar automáticamente el formato de las fechas en la cadena de texto que le proporcionas. Esto puede ser útil si las fechas tienen formatos diferentes en tus datos.

3. `format`: Este parámetro te permite especificar el formato exacto de las fechas en la cadena de texto que le proporcionas. Para configurarlo correctamente, puedes consultar la documentación que muestra cómo representar diferentes partes de una fecha o hora. El enlace proporcionado te dará códigos que puedes usar para describir el formato que estás utilizando en tus datos.

En resumen, estos parámetros son útiles cuando trabajas con fechas y horas en Python y necesitas controlar cómo se manejan los errores de conversión, si deseas que Python adivine el formato de las fechas automáticamente o si prefieres especificar el formato exacto que estás usando en tus datos.