EXTRACCIÓN DE DATOS CON PYTHON

La extracción de datos es el proceso de eliminar datos de una fuente y almacenarlos de una forma diferente. Se puede hacer de forma manual o automática usando Python. Se usa comúnmente para la extracción de datos, ya que tiene muchas librerías disponibles para automatizar el proceso como MySQL, Postgresql, hojas de cálculo de Excel, etc.

LIBRERÍAS PARA EXTRACCIÓN DE DATOS

La librería más popular para extraer datos de bases de datos MySQL es la librería mysql. También hay otras librerías que se pueden usar para extraer datos de otras fuentes, como:

PANDAS
Para extraer conjuntos de datos y tablas en varios formatos en uno o más de los siguientes formatos: CSV, HTML, JSON o libro de Excel (.xlsx)
Manipulación de datos con Pandas
OPENPYXL
Para trabajar con archivos de hoja de cálculo en varios formatos en uno o más de los siguientes formatos: CSV, HTML, XML o libro de Excel (.xlsx) - solicitudes: para obtener datos de una URL
DATETIME
Para manejar objetos de fecha y hora
NUMPY
Una librería de propósito general para computación científica con módulos diseñados para aplicaciones numéricamente intensivas como álgebra lineal, transformadas de Fourier, y generación de números aleatorios
SCIPY
Una librería para computación científica y visualización con muchos módulos, incluidas funciones especiales, álgebra lineal, transformadas de Fourier, estructuras de datos y algoritmos para el procesamiento de señales
NetCDF
Software diseñado para leer, escribir, actualizar y manipular grandes conjuntos de datos en un entorno de red. Utiliza una API orientada a objetos que admite C, Fortran y C++
Anterior
Siguiente

La librería de Python llamada Beautiful Soup es una de esas herramientas que se puede usar para extraer datos de archivos HTML y XML. Sin embargo, no puede extraer datos de otros formatos, como archivos PDF y videos. Para extraer datos de un PDF, se utiliza la misma técnica que para extraer datos de HTML. Se usa Beautiful Soup para analizar el archivo y luego se utilizará para obtener el contenido de texto de cada elemento HTML.

PROCESO DE EXTRACCIÓN DE DATOS CON PYTHON

El proceso de extracción de datos con Phyton es un paso importante en el desarrollo de una aplicación. A continuación, veremos el proceso para extraer los datos y cómo utilizar Python para crear una aplicación web con esta información.

 

Phyton aplicará el método de extracción de datos y los resultados se guardarán en una tabla. La instrucción SELECT se utiliza para obtener ciertos valores de una tabla, la instrucción DELETE es utilizada para quitar datos de una tabla, y la instrucción INSERT se utiliza para agregar datos a una tabla.

 

Para realizar el procedimiento de extracción de datos con Phyton vamos a empezar nuestro proceso desde el comienzo, donde tecleamos la siguiente instrucción: SELECT * FROM TableName. La instrucción SELECT especifica todos los valores que se pueden obtener de las filas y columnas en una tabla. Phyton usará estos valores para generar nuevas columnas de resultados. El valor lógico que se puede obtener es NULL, pero Phyton también podría tener un valor de error lógico como NOINDEX o NOFOO.

 

El resultado de la instrucción SELECT especifica la lista de columnas en la tabla. El resultado de cada instrucción SELECT especifica el resultado para cada uno de los elementos en esta lista. Puede usar este método para realizar la misma tarea DOS veces. Es posible que se necesite una instrucción SELECT DISTINCT para hacer esto.

 

Los parámetros SELECT* son desplegables. Esto es particularmente útil si el nombre de la tabla es largo.

¿Estás interesado en aprender más sobre Phyton? En Pontia tenemos un máster Data Analitys y otro máster en Data Science, donde te enseñamos más sobre este lenguaje tan popular. 

MÁSTER EN
DATA SCIENCE

Live-streaming

MÁSTER EN
DATA ANALYTICS

Live-streaming

DESCARGA AQUÍ

Si todo este contenido te está gustando,  te dejamos aquí la versión descargable. 

Solicita información en Pontia

Hola, ¿Tienes preguntas?